当前位置：首页 > news >正文

FFmpeg 与 C++ 构建音视频处理全链路实战（五）—— 音视频编码与封装

news 2025/9/15 20:37:06

在前面的系列文章中，我们已经层层深入，从 MP4 与 FLV 封装格式的剖析，到 H.264 和 AAC 原理的探索，再到 FFmpeg 的解封装、解码，以及音频重采样、视频尺寸变化的代码实现，为音视频处理打下了坚实基础。而今天，我们将迎来整个系列的终章 —— 音视频编码与封装，完成从原始音视频数据到可播放媒体文件的最后蜕变。

一、音视频编码基础回顾与进阶理解

在深入编码实战之前，我们先简单回顾并进一步拓展音视频编码的核心概念。视频编码，以 H.264 为例，其核心思想是通过帧内预测、帧间预测、变换编码和熵编码等技术，去除视频数据中的空间冗余、时间冗余和信息冗余，将庞大的原始视频数据压缩成适合存储和传输的格式。而音频编码，如 AAC，主要利用人耳的听觉特性，通过心理声学模型，将人耳难以感知的音频信息去除，实现高效压缩。

随着技术发展，如今 H.265（HEVC）等新一代视频编码标准凭借更高的压缩效率逐渐崭露头角。它们在 H.264 的基础上，进一步优化了编码算法，例如采用更大的编码单元、更精细的帧内预测模式等，在相同画质下可将码率降低约 50%，这对于带宽资源紧张的场景，如网络视频流传输，有着巨大的应用价值。在音频编码领域，也涌现出了像 Opus 这样的编码格式，它结合了多种编码技术的优势，在低码率下依然能保证出色的音质，适用于实时语音通信等场景。

二、FFmpeg 音视频编码流程剖析

使用 FFmpeg 进行音视频编码，大致可以分为以下几个关键步骤：

2.1 初始化编码器

在编码之前，我们需要根据需求选择合适的编码器，并进行初始化。以视频编码为例，我们可以使用avcodec_find_encoder函数查找 H.264 编码器，然后通过avcodec_alloc_context3分配编码器上下文，并对上下文的参数进行配置，如设置编码分辨率、帧率、码率等。音频编码的初始化过程与之类似，需要设置采样率、声道数、采样格式等参数。

视频：

// 查找编码器
codec = avcodec_find_encoder_by_name(codecName);
if (!codec) {std::cerr << "找不到编码器: " << codecName << std::endl;exit(1);
}
// 分配编码器上下文
codecContext = avcodec_alloc_context3(codec);
if (!codecContext) {std::cerr << "无法分配编码器上下文" << std::endl;exit(1);
}
// 设置编码器参数
codecContext->bit_rate = 400000;
codecContext->width = width;
codecContext->height = height;
codecContext->time_base = {1, fps};
codecContext->framerate = {fps, 1};
codecContext->gop_size = 10;
codecContext->max_b_frames = 1;
codecContext->pix_fmt = AV_PIX_FMT_YUV420P;

音频：

// 设置编码器参数
codecContext->sample_fmt = codec->sample_fmts? codec->sample_fmts[0] : AV_SAMPLE_FMT_FLTP;
codecContext->sample_rate = sampleRate;
codecContext->channels = channels;
codecContext->channel_layout = av_get_default_channel_layout(channels);
codecContext->bit_rate = 128000;

2.2 准备编码数据

在完成编码器初始化后，我们需要准备待编码的音视频数据。对于视频来说，通常是 YUV 格式的图像帧；音频则是 PCM 格式的音频样本。这些数据可能来自于之前的解码、重采样或其他处理步骤。我们需要将这些原始数据按照编码器的要求进行组织和传递。

// RGB到YUV的转换
const uint8_t* rgbPlanes[1] = { rgbData };
int rgbStrides[1] = { stride };
sws_scale(swsContext, rgbPlanes, rgbStrides, 0, height, frame->data, frame->linesize);

// 重采样
int dstNbSamples = av_rescale_rnd(swr_get_delay(swrContext, sampleRate) + samples,codecContext->sample_rate, sampleRate, AV_ROUND_UP);
int convertedSamples = swr_convert(swrContext, dstData, dstNbSamples,(const uint8_t **)srcData, samples);

2.3 执行编码操作

一切准备就绪后，就可以调用avcodec_send_frame函数将待编码的数据送入编码器，再通过avcodec_receive_packet获取编码后的码流数据。这个过程需要不断循环，直到所有数据都完成编码。

// 发送帧到编码器
if (avcodec_send_frame(codecContext, frame) < 0) {std::cerr << "Error sending frame to encoder" << std::endl;return;
}
// 从编码器接收数据包
while (true) {int ret = avcodec_receive_packet(codecContext, packet);if (ret == AVERROR(EAGAIN) || ret == AVERROR_EOF) {break;} else if (ret < 0) {std::cerr << "Error receiving packet from encoder" << std::endl;break;}// 处理编码后的数据包//...av_packet_unref(packet);
}

2.4 释放资源

编码完成后，不要忘记释放编码器上下文以及相关的内存资源，避免内存泄漏。使用avcodec_free_context函数释放编码器上下文，对于编码过程中分配的其他资源，也需要按照对应的释放函数进行处理。

~VideoEncoder() {// 刷新编码器flush_encoder();// 释放资源sws_freeContext(swsContext);av_packet_free(&packet);av_frame_free(&frame);avcodec_free_context(&codecContext);
}

~AudioEncoder() {// 刷新编码器flush_encoder();// 释放资源if (srcData) {av_freep(&srcData[0]);}av_freep(&srcData);if (dstData) {av_freep(&dstData[0]);}av_freep(&dstData);swr_free(&swrContext);av_packet_free(&packet);av_frame_free(&frame);avcodec_free_context(&codecContext);
}

三、音视频封装：将编码后的码流组合成媒体文件

完成音视频编码后，我们得到了视频码流和音频码流，接下来的任务就是将它们封装成完整的媒体文件，如 MP4 或 FLV。封装的过程，就像是将不同的食材（音视频码流）按照特定的菜谱（封装格式规范）烹饪成一道美味的菜肴（媒体文件）。

3.1 选择封装格式与初始化封装器

我们可以使用avformat_alloc_output_context2函数根据指定的封装格式（如 “mp4” 或 “flv”）分配封装器上下文。然后，通过avformat_new_stream函数为视频流和音频流分别创建对应的输出流，并将之前初始化好的音视频编码器上下文与输出流关联起来。

// 分配输出格式上下文
if (avformat_alloc_output_context2(&formatContext, nullptr, nullptr, outputPath.c_str()) < 0) {std::cerr << "无法分配输出格式上下文" << std::endl;exit(1);
}
// 添加视频流
AVStream *stream = avformat_new_stream(formatContext, nullptr);
if (!stream) {std::cerr << "无法创建视频流" << std::endl;exit(1);
}
stream->time_base = codecContext->time_base;
videoStreamIndex = stream->index;
if (avcodec_parameters_from_context(stream->codecpar, codecContext) < 0) {std::cerr << "无法复制编码器参数" << std::endl;exit(1);
}

音频流的添加过程类似，通过类似方式设置相关参数并与编码器上下文关联。

3.2 写入文件头与编码数据

在开始写入音视频数据之前，需要调用avformat_write_header函数写入媒体文件的文件头，文件头中包含了媒体文件的基本信息，如封装格式、音视频流的参数等。之后，将编码后的音视频码流数据通过av_interleaved_write_frame函数写入封装器，该函数会自动将音视频数据按照时间戳进行交错排列，保证播放时音画同步。

// 写入文件头
if (avformat_write_header(formatContext, nullptr) < 0) {std::cerr << "无法写入文件头" << std::endl;exit(1);
}
// 写入视频数据包
AVPacket *newPacket = av_packet_clone(packet);
newPacket->pts -= firstVideoPts;
newPacket->dts -= firstVideoPts;
newPacket->stream_index = videoStreamIndex;
if (av_interleaved_write_frame(formatContext, newPacket) < 0) {std::cerr << "写入视频包失败" << std::endl;
}
av_packet_free(&newPacket);

3.3 写入文件尾并释放资源

当所有音视频数据都写入完成后，调用av_write_trailer函数写入文件尾，文件尾包含了一些用于文件校验和索引的信息。最后，释放封装器上下文以及相关资源，至此，一个完整的媒体文件就封装完成了。

// 写入文件尾
if (isInitialized) {av_write_trailer(formatContext);
}
// 关闭输出文件
if (!(formatContext->oformat->flags & AVFMT_NOFILE) && formatContext->pb) {avio_closep(&formatContext->pb);
}
// 释放格式上下文
avformat_free_context(formatContext);
formatContext = nullptr;

四、实战中的常见问题与解决方案

在实际的音视频编码与封装过程中，难免会遇到各种问题。比如，编码后的视频出现花屏，这可能是由于输入的视频帧格式与编码器不匹配，或者编码器参数设置不当导致的；音频出现杂音，可能是音频采样格式、声道数等参数配置错误。针对这些问题，我们需要仔细检查编码和解码过程中的参数设置，利用 FFmpeg 提供的调试信息进行排查。同时，合理设置缓冲区大小、优化数据传递流程等，也能有效提高编码与封装的稳定性和效率。

至此，我们通过一系列文章，完整地走完了 FFmpeg 与 C++ 构建音视频处理全链路的旅程。从最初对音视频格式和编码原理的探索，到一步步实现解封装、解码、处理、编码与封装，每一个环节都凝聚着音视频技术的精妙之处。希望这个系列文章能为你打开音视频处理的大门，让你在这个充满挑战与魅力的领域中继续探索前行。