基于 veRL 多模态混训的视频上下文并行,百度百舸提升具身智能强化学习效能
在客户场景的实际测试中,相比社区原有方案,百度百舸的方案经过合理的切分配置,单段视频支持的帧数上限提升超过 2 倍,单帧最大分辨率上限提升超过 2.6 倍,可以大幅缩短训练时间。同时显存占用更低,训练曲线更加平稳。在模型效果上,在既有评测集上的准确率评分提升约 5%。
在具身智能场景中,因果链条长、奖励信号延迟,天然对长上下文能力提出更高要求。然而受限于显存瓶颈,多模态大模型的训练原始数据常被迫采用「低分辨率、低帧率采样」的折中方案,难以支撑真正意义上的长上下文训练,需要花费更多的时间进行训练。
与此同时,真实业务中的数据分布本质上是「文本 + 图像 + 视频」的混合形态。通过同时训练文本、图像和视频等多种类型的数据,模型可以在同一个主干网络中学习共通的特征,避免只依赖单一类型数据带来的局限,减少在不同数据类型之间切换的额外开销,提升训练效率。
在基于 veRL 对 Qwen2.5-VL 进行强化学习训练时,若同时追求高分辨率与高帧率采样,而又缺乏上下文并行(CP,Context Parallelism)能力,显存将迅速成为瓶颈,难以支撑更长序列与更大像素规模的训练需求。
NVIDIA 在 veRL 框架中针对 Qwen2.5-VL 模型支持了 THD format 上下文并行功能,兼顾语言与视觉(图文)模态,通过在各 CP rank 间均匀分配上下文并保障通信一致性,实现了良好的负载均衡与稳定吞吐。
然而,该方案尚未覆盖视频切分,也未考虑「同一 batch 中同时包含纯文本、图文、视频-文本对」等复杂的混训场景,难以完全满足真实业务中多模态组合负载的实际需求。
针对客户在实际场景中提出的新要求,百度百舸团队与 NVIDIA 联合推动 veRL 上下文并行能力在具身智能领域的落地。
百度百舸在社区已有工作的基础上,完成了 veRL 的深度适配,在 Qwen2.5-VL 等模型上率先实现了视频 CP 支持,并构建了多模态混训能力。当前版本已全面支持 Qwen2.5-VL 全系列模型,并为其他多模态大模型预留了扩展路径。
具体而言,百度百舸完成了两项关键能力增强:
新增视频 CP 切分机制,可直接支撑高分辨率、高帧率的长视频数据集训练,实现上下文的线性拓展;同时在基于 Ampere 架构 SM80 的环境中优化 attention 后端选择,进一步加速训练效率。
面向多模态混训 + 视频 CP 这一复杂组合场景,我们重构并优化了分片通信机制,系统性解决了稳定性相关问题。
在客户场景的实际测试中,相比社区原有方案,百度百舸的方案经过合理的切分配置,单段视频支持的帧数上限提升超过 2 倍,单帧最大分辨率上限提升超过 2.6 倍,可以大幅缩短训练时间。同时显存占用更低,训练曲线更加平稳。在模型效果上,在既有评测集上的准确率评分提升约 5%。
结果表明,基于 veRL 多模态混训的视频上下文并行的技术路线在真实业务中具备良好的可复制性与持续演进潜力。
