WebRTC(九):JitterBuffer
JitterBuffer
Jitter
“Jitter”指的是连续到达的媒体包之间时间间隔的变化。在网络传输中,由于:
- 网络拥塞
- 路由路径变化
- 队列排队
- 不同链路带宽差异
导致包之间的接收时间不一致,这就是网络“抖动”。
作用
**JitterBuffer(抖动缓冲区)**的作用是:
- 缓冲网络传输过来的数据包
- 重新排序乱序的包
- 缓冲一定时间再输出
- 实现稳定的音视频帧输出,避免播放中出现 卡顿、跳帧、音频破音
工作流程图
网络接收 ← UDP/RTP 包 ← jitterbuffer ← 解码器 ← 播放器/渲染器↑ ↑排序 + 重组 + 时间控制 + 丢包填补(PLC)
流程详解
1. 接收数据包
- 每个 RTP 包有
sequence number
和timestamp
。 - 收到包后,判断是否乱序、丢包。
2. 缓存和排序
- 将包插入 buffer 中合适位置(基于
sequence number
排序)。
3. 播放控制
- 到达播放时间时,提取对应时间戳的包进行解码。
- 若包未到达(丢包或延迟):
- 等待一段时间(等待时间配置或自适应);
- 或直接丢帧;
- 或填补(音频使用 PLC,视频可能重复前帧或跳过)。
4. 自适应控制
- 根据网络条件(RTCP 报告、丢包率、延迟)动态调整缓冲大小(WebRTC 的核心机制之一)。
常用参数
参数 | 说明 |
---|---|
初始缓冲时长(如 50ms) | 启动播放前预缓存的时长 |
最大缓冲时长(如 200ms) | 抖动缓冲的最大范围 |
播放时钟 | 控制何时从 buffer 中读包 |
最大乱序范围 | 防止恶意/错误乱序拖垮 buffer |
WebRTC中JitterBuffer
WebRTC 是目前最复杂、最智能的抖动缓冲实现之一,支持:
- 音频 JitterBuffer
- 视频 JitterBuffer
- 网络自适应算法
- FEC(前向纠错)/NACK(重传)
- Audio/Video 同步
音频 JitterBuffer
模块路径:webrtc/modules/audio_coding/neteq/
功能
- 乱序处理;
- 丢包补偿(使用 PLC、CNG、FEC);
- 动态调节;
- 语音平滑(低码率时很关键);
原理
RTP Packet↓NetEq::InsertPacket↓[DecoderBuffer + PacketBuffer]↓NetEq::GetAudio (解码并补偿)↓音频帧 → 播放器
PLC、CNG、FEC
概念
缩写 | 全称 | 作用 |
---|---|---|
PLC | Packet Loss Concealment | 在音频丢包时生成“伪造音频”以避免突兀中断 |
CNG | Comfort Noise Generation | 在静音时生成背景噪声,防止“死寂”现象 |
FEC | Forward Error Correction | 通过多发送冗余信息,在接收端恢复丢失的数据包 |
PLC(Packet Loss Concealment)
目标:帧丢失时,合成一个与上一帧相似的语音片段,避免“卡顿”或“哑音”。
常用方法:
- 波形复制:简单地复制上一帧波形;
- 线性预测(LPC):建模语音信号特性,预测缺失内容;
- 谱域合成:复制频谱形状,适用于宽带语音(如 Opus);
WebRTC 实现:
- 位于
NetEq
模块中的Expand
类; - 插入虚拟音频帧(通常是 10ms);
- 结合时间戳推进逻辑,自动衔接解码帧。
NetEq::GetAudio()
会判断是否缺帧,如缺则调用Expand::Process()
生成伪音频。
CNG(Comfort Noise Generation)
目标:通话静音时生成背景噪声,增强自然感、避免“真空”感。
常用方法:
- 在“活动语音”段估计背景噪声特征;
- 静音时合成类似背景噪声(白噪声加滤波);
- 由编码器定期发送
SID
(Silence Insertion Descriptor)帧;
WebRTC 实现:
- 使用 RFC 3389 标准 CNG;
- 位于 NetEq 的
ComfortNoise
模块; - 接收
SID
RTP 包并生成伪噪声; - 在编码器中设置:
audio_coding_module->EnableCN(true);
FEC(Forward Error Correction)
目标:通过发送冗余信息,让接收端自行恢复丢失的帧。
常用方法:
- Opus 内建 FEC:发送低码率副本;
- Redundant Encoding (RED):同一个 RTP 包携带多个编码帧;
- ULPFEC(RFC 5109):按 RTP 层进行异或编码恢复丢包;
WebRTC 实现:
-
支持 Opus FEC(内建);
-
支持 RED + ULPFEC 组合(多用于视频,但音频也适用);
-
启用方式:
config.audio.send_codec_spec.codec_inst.pltype = 111; // opus config.audio.send_codec_spec.enable_fec = true;
Opus 中 FEC 和 DTX 可协同工作(低带宽时启用 DTX 静音,失真时启用 FEC)
对比
技术 | 工作阶段 | 需编码器支持 | 占带宽 | 延迟 | 对音质的作用 |
---|---|---|---|---|---|
PLC | 接收端 | 否 | 否 | 无 | 平滑丢包间断 |
CNG | 编码 + 解码 | 是 | 极低 | 无 | 模拟背景环境 |
FEC | 编码 + 解码 | 是 | 高 | 无 | 主动对抗丢包,避免掉帧 |
WebRTC 中启用方式
启用 PLC(默认开启)
无需显式设置,NetEq 自动启用:
NetEq::GetAudio() 自动判断是否丢包 → Expand::Process()
启用 CNG
AudioSendStream::Config config;
config.send_codec_spec.codec_inst.pltype = 9; // G.729 CN
config.send_codec_spec.enable_dtx = true; // 打开 DTX
对于 Opus,也可以开启 DTX(自动静音 + CNG):
config.send_codec_spec.enable_dtx = true;
启用 FEC(以 Opus 为例)
config.send_codec_spec.enable_fec = true;
也可通过 SDP 启用 RED + ULPFEC:
a=rtpmap:111 opus/48000/2
a=fmtp:111 useinbandfec=1; usedtx=1
NetEq
功能
功能 | 说明 |
---|---|
抖动缓冲 | 缓解网络抖动带来的乱序、延迟不稳定 |
解码 | 插件式音频解码器支持 |
丢包补偿(PLC) | 使用语音扩展、静音插入等技术“补”上丢帧 |
噪声生成(CNG) | 模拟背景噪声防止静音突兀 |
拓展播放/速率控制 | 实现播放速度调节(例如加速恢复) |
DTMF 支持 | 电话拨号音的内联处理 |
关键类:NetEqImpl
核心类是:
class NetEqImpl : public NetEq {public:int InsertPacket(const RTPHeader& header, rtc::ArrayView<const uint8_t> payload) override;int GetAudio(AudioFrame* audio_frame) override;...
};
InsertPacket()
int NetEqImpl::InsertPacket(const RTPHeader& header,rtc::ArrayView<const uint8_t> payload)
处理 RTP 包输入:
- 插入
packet_buffer_
- 检查有效性、乱序
- 更新时间戳信息
GetAudio()
int NetEqImpl::GetAudio(AudioFrame* audio_frame)
执行一次音频播放输出:
- 调用
decision_logic_->GetDecision()
选择行为 - 行为包括:
kNormal
:正常解码kExpand
:PLC 补偿kAccelerate
:播放加速kCng
:背景噪声
- 执行相应模块生成音频帧返回
运行机制:时间推进和缓冲策略
NetEq 使用内部“播放时钟”推进播放,假设 10ms 一帧,每次 GetAudio()
会:
- 计算目标
timestamp
- 判断当前 packet buffer 是否含有该 timestamp 的帧
- 没有 → 触发补偿
- 有 → 解码返回
源码解析
PacketBuffer
存储 RTP 包,支持按 timestamp 排序 + 乱序插入:
class PacketBuffer {bool InsertPacket(Packet&& packet);absl::optional<Packet> GetNextPacket(uint32_t timestamp);
};
DecoderDatabase
注册各种 RTP payload type 到解码器:
class DecoderDatabase {bool RegisterPayload(uint8_t payload_type, AudioDecoder* decoder);AudioDecoder* GetDecoder(uint8_t payload_type);
};
可扩展添加自定义解码器。
Expand(PLC)
用于在丢包时合成连续音频:
class Expand {void Process(AudioFrame* frame);
};
算法核心:基于最近解码帧的频率模式生成伪数据。
视频 JitterBuffer
模块路径:webrtc/modules/video_coding/
功能
- 基于帧(Frame)级缓存;
- 管理多个 RTP 包拼装一个视频帧;
- 处理 I/P/B 帧依赖关系;
- 异步解码与播放,配合 AVSync。
核心类:
VCMJitterBuffer
:包级缓存;FrameBuffer
:帧组装器;FrameBufferController
:根据解码状态/网络反馈动态调节 buffer;
原理
1. DeliverRtp(RTP packet)↓
2. Insert into FrameBuffer (reorders and assembles)↓
3. Mark frame as complete↓
4. Notify decoder thread (via AsyncInvoker)↓
5. Decoder calls NextFrame()↓
6. FrameBuffer returns suitable frame based on timing
源码解析
FrameBuffer 接口类
class FrameBuffer {public:void InsertFrame(std::unique_ptr<EncodedFrame> frame);std::unique_ptr<EncodedFrame> NextFrame();
};
特点:
- 接收完整帧(非 RTP 包级);
- 和 NACK 控制、帧到达策略分离;
- 提供解码时间控制(配合
Timing
类);
RtpVideoStreamReceiver
接收 RTP 包并重组帧,组装完成后推入 FrameBuffer
:
bool RtpVideoStreamReceiver::OnRtpPacket(const RtpPacketReceived& packet)
- 组装
VCMPacket
(含 marker bit, seq, timestamp); - 查找是否构成完整帧(依赖
FrameBuffer::InsertFrame()
); - 完整帧则通知解码线程处理。
VideoReceiveStream::StartDecodeLoop()
负责调用解码逻辑:
std::unique_ptr<EncodedFrame> frame = frame_buffer_->NextFrame();
decoder_->Decode(frame);
解码线程会持续等待并从 FrameBuffer 中提取适合解码的帧。
时间同步逻辑(配合 Timing
类)
视频帧不是立刻解码,而是要等待“最佳播放时间”:
Timing::RenderTimeMs(uint32_t frame_timestamp, int64_t now_ms)
内部通过系统时间、RTP timestamp 差计算出:
- 当前帧是否提前(buffering)
- 当前帧是否延迟(丢帧)
- 帧间 jitter 均值估计(变更播放时钟)
丢包处理(NACK / Frame Missing)
FrameBuffer::InsertFrame()
内部跟踪丢帧(依据 sequence number);- 控制模块向上层触发 NACK;
- 使用
rtp_rtcp::RTCPeerFeedback
上报丢帧; - 等待 retransmit 后再组帧。
动态自适应机制
WebRTC 会根据网络反馈(RTCP)动态调整 jitterbuffer:
网络状态 | Buffer 调整策略 |
---|---|
抖动变大 | 增大 buffer 延迟,提升稳定性 |
网络稳定 | 减小 buffer,降低延迟 |
丢包严重 | 增加 buffer + 请求重传(NACK) |
无法重传 | 使用 FEC 或插入静音/伪帧 |
与 AV 同步的协作
WebRTC 中,音频是时钟主导(anchor),视频 jitterbuffer 会与音频同步,控制渲染时间戳,使音画同步。
总结
WebRTC 的 JitterBuffer 构建了高度模块化、可插拔、跨平台的实时缓冲机制,实现了在复杂网络环境下高质量的音视频通信体验。
特性 | 音频(NetEq) | 视频(FrameBuffer) |
---|---|---|
缓冲粒度 | RTP 包(10ms) | 视频帧 |
解码策略 | 严格 10ms 推进 | 根据时间和帧依赖 |
丢包处理 | PLC / CNG | NACK / 丢弃 |
时间同步 | 插值输出 / 静音填充 | Timing::RenderTimeMs 控制 |
解码控制 | 内部自动控制 | 外部线程主动拉帧解码 |
延迟适配 | 加速 / 减速 | 控制解码时机或丢帧 |