FFmpeg 与 C++ 构建音视频处理全链路实战(五)—— 音视频编码与封装
在前面的系列文章中,我们已经层层深入,从 MP4 与 FLV 封装格式的剖析,到 H.264 和 AAC 原理的探索,再到 FFmpeg 的解封装、解码,以及音频重采样、视频尺寸变化的代码实现,为音视频处理打下了坚实基础。而今天,我们将迎来整个系列的终章 —— 音视频编码与封装,完成从原始音视频数据到可播放媒体文件的最后蜕变。
一、音视频编码基础回顾与进阶理解
在深入编码实战之前,我们先简单回顾并进一步拓展音视频编码的核心概念。视频编码,以 H.264 为例,其核心思想是通过帧内预测、帧间预测、变换编码和熵编码等技术,去除视频数据中的空间冗余、时间冗余和信息冗余,将庞大的原始视频数据压缩成适合存储和传输的格式。而音频编码,如 AAC,主要利用人耳的听觉特性,通过心理声学模型,将人耳难以感知的音频信息去除,实现高效压缩。
随着技术发展,如今 H.265(HEVC)等新一代视频编码标准凭借更高的压缩效率逐渐崭露头角。它们在 H.264 的基础上,进一步优化了编码算法,例如采用更大的编码单元、更精细的帧内预测模式等,在相同画质下可将码率降低约 50%,这对于带宽资源紧张的场景,如网络视频流传输,有着巨大的应用价值。在音频编码领域,也涌现出了像 Opus 这样的编码格式,它结合了多种编码技术的优势,在低码率下依然能保证出色的音质,适用于实时语音通信等场景。
二、FFmpeg 音视频编码流程剖析
使用 FFmpeg 进行音视频编码,大致可以分为以下几个关键步骤:
2.1 初始化编码器
在编码之前,我们需要根据需求选择合适的编码器,并进行初始化。以视频编码为例,我们可以使用avcodec_find_encoder函数查找 H.264 编码器,然后通过avcodec_alloc_context3分配编码器上下文,并对上下文的参数进行配置,如设置编码分辨率、帧率、码率等。音频编码的初始化过程与之类似,需要设置采样率、声道数、采样格式等参数。
视频:
// 查找编码器
codec = avcodec_find_encoder_by_name(codecName);
if (!codec) {std::cerr << "找不到编码器: " << codecName << std::endl;exit(1);
}
// 分配编码器上下文
codecContext = avcodec_alloc_context3(codec);
if (!codecContext) {std::cerr << "无法分配编码器上下文" << std::endl;exit(1);
}
// 设置编码器参数
codecContext->bit_rate = 400000;
codecContext->width = width;
codecContext->height = height;
codecContext->time_base = {1, fps};
codecContext->framerate = {fps, 1};
codecContext->gop_size = 10;
codecContext->max_b_frames = 1;
codecContext->pix_fmt = AV_PIX_FMT_YUV420P;
音频:
// 设置编码器参数
codecContext->sample_fmt = codec->sample_fmts? codec->sample_fmts[0] : AV_SAMPLE_FMT_FLTP;
codecContext->sample_rate = sampleRate;
codecContext->channels = channels;
codecContext->channel_layout = av_get_default_channel_layout(channels);
codecContext->bit_rate = 128000;
2.2 准备编码数据
在完成编码器初始化后,我们需要准备待编码的音视频数据。对于视频来说,通常是 YUV 格式的图像帧;音频则是 PCM 格式的音频样本。这些数据可能来自于之前的解码、重采样或其他处理步骤。我们需要将这些原始数据按照编码器的要求进行组织和传递。
// RGB到YUV的转换
const uint8_t* rgbPlanes[1] = { rgbData };
int rgbStrides[1] = { stride };
sws_scale(swsContext, rgbPlanes, rgbStrides, 0, height, frame->data, frame->linesize);
// 重采样
int dstNbSamples = av_rescale_rnd(swr_get_delay(swrContext, sampleRate) + samples,codecContext->sample_rate, sampleRate, AV_ROUND_UP);
int convertedSamples = swr_convert(swrContext, dstData, dstNbSamples,(const uint8_t **)srcData, samples);
2.3 执行编码操作
一切准备就绪后,就可以调用avcodec_send_frame函数将待编码的数据送入编码器,再通过avcodec_receive_packet获取编码后的码流数据。这个过程需要不断循环,直到所有数据都完成编码。
// 发送帧到编码器
if (avcodec_send_frame(codecContext, frame) < 0) {std::cerr << "Error sending frame to encoder" << std::endl;return;
}
// 从编码器接收数据包
while (true) {int ret = avcodec_receive_packet(codecContext, packet);if (ret == AVERROR(EAGAIN) || ret == AVERROR_EOF) {break;} else if (ret < 0) {std::cerr << "Error receiving packet from encoder" << std::endl;break;}// 处理编码后的数据包//...av_packet_unref(packet);
}
2.4 释放资源
编码完成后,不要忘记释放编码器上下文以及相关的内存资源,避免内存泄漏。使用avcodec_free_context函数释放编码器上下文,对于编码过程中分配的其他资源,也需要按照对应的释放函数进行处理。
~VideoEncoder() {// 刷新编码器flush_encoder();// 释放资源sws_freeContext(swsContext);av_packet_free(&packet);av_frame_free(&frame);avcodec_free_context(&codecContext);
}
~AudioEncoder() {// 刷新编码器flush_encoder();// 释放资源if (srcData) {av_freep(&srcData[0]);}av_freep(&srcData);if (dstData) {av_freep(&dstData[0]);}av_freep(&dstData);swr_free(&swrContext);av_packet_free(&packet);av_frame_free(&frame);avcodec_free_context(&codecContext);
}
三、音视频封装:将编码后的码流组合成媒体文件
完成音视频编码后,我们得到了视频码流和音频码流,接下来的任务就是将它们封装成完整的媒体文件,如 MP4 或 FLV。封装的过程,就像是将不同的食材(音视频码流)按照特定的菜谱(封装格式规范)烹饪成一道美味的菜肴(媒体文件)。
3.1 选择封装格式与初始化封装器
我们可以使用avformat_alloc_output_context2函数根据指定的封装格式(如 “mp4” 或 “flv”)分配封装器上下文。然后,通过avformat_new_stream函数为视频流和音频流分别创建对应的输出流,并将之前初始化好的音视频编码器上下文与输出流关联起来。
// 分配输出格式上下文
if (avformat_alloc_output_context2(&formatContext, nullptr, nullptr, outputPath.c_str()) < 0) {std::cerr << "无法分配输出格式上下文" << std::endl;exit(1);
}
// 添加视频流
AVStream *stream = avformat_new_stream(formatContext, nullptr);
if (!stream) {std::cerr << "无法创建视频流" << std::endl;exit(1);
}
stream->time_base = codecContext->time_base;
videoStreamIndex = stream->index;
if (avcodec_parameters_from_context(stream->codecpar, codecContext) < 0) {std::cerr << "无法复制编码器参数" << std::endl;exit(1);
}
音频流的添加过程类似,通过类似方式设置相关参数并与编码器上下文关联。
3.2 写入文件头与编码数据
在开始写入音视频数据之前,需要调用avformat_write_header函数写入媒体文件的文件头,文件头中包含了媒体文件的基本信息,如封装格式、音视频流的参数等。之后,将编码后的音视频码流数据通过av_interleaved_write_frame函数写入封装器,该函数会自动将音视频数据按照时间戳进行交错排列,保证播放时音画同步。
// 写入文件头
if (avformat_write_header(formatContext, nullptr) < 0) {std::cerr << "无法写入文件头" << std::endl;exit(1);
}
// 写入视频数据包
AVPacket *newPacket = av_packet_clone(packet);
newPacket->pts -= firstVideoPts;
newPacket->dts -= firstVideoPts;
newPacket->stream_index = videoStreamIndex;
if (av_interleaved_write_frame(formatContext, newPacket) < 0) {std::cerr << "写入视频包失败" << std::endl;
}
av_packet_free(&newPacket);
3.3 写入文件尾并释放资源
当所有音视频数据都写入完成后,调用av_write_trailer函数写入文件尾,文件尾包含了一些用于文件校验和索引的信息。最后,释放封装器上下文以及相关资源,至此,一个完整的媒体文件就封装完成了。
// 写入文件尾
if (isInitialized) {av_write_trailer(formatContext);
}
// 关闭输出文件
if (!(formatContext->oformat->flags & AVFMT_NOFILE) && formatContext->pb) {avio_closep(&formatContext->pb);
}
// 释放格式上下文
avformat_free_context(formatContext);
formatContext = nullptr;
四、实战中的常见问题与解决方案
在实际的音视频编码与封装过程中,难免会遇到各种问题。比如,编码后的视频出现花屏,这可能是由于输入的视频帧格式与编码器不匹配,或者编码器参数设置不当导致的;音频出现杂音,可能是音频采样格式、声道数等参数配置错误。针对这些问题,我们需要仔细检查编码和解码过程中的参数设置,利用 FFmpeg 提供的调试信息进行排查。同时,合理设置缓冲区大小、优化数据传递流程等,也能有效提高编码与封装的稳定性和效率。
至此,我们通过一系列文章,完整地走完了 FFmpeg 与 C++ 构建音视频处理全链路的旅程。从最初对音视频格式和编码原理的探索,到一步步实现解封装、解码、处理、编码与封装,每一个环节都凝聚着音视频技术的精妙之处。希望这个系列文章能为你打开音视频处理的大门,让你在这个充满挑战与魅力的领域中继续探索前行。