当前位置: 首页 > news >正文

基于 veRL 多模态混训的视频上下文并行,百度百舸提升具身智能强化学习效能

在客户场景的实际测试中,相比社区原有方案,百度百舸的方案经过合理的切分配置,单段视频支持的帧数上限提升超过 2 倍,单帧最大分辨率上限提升超过 2.6 倍,可以大幅缩短训练时间。同时显存占用更低,训练曲线更加平稳。在模型效果上,在既有评测集上的准确率评分提升约 5%。


在具身智能场景中,因果链条长、奖励信号延迟,天然对长上下文能力提出更高要求。然而受限于显存瓶颈,多模态大模型的训练原始数据常被迫采用「低分辨率、低帧率采样」的折中方案,难以支撑真正意义上的长上下文训练,需要花费更多的时间进行训练。

与此同时,真实业务中的数据分布本质上是「文本 + 图像 + 视频」的混合形态。通过同时训练文本、图像和视频等多种类型的数据,模型可以在同一个主干网络中学习共通的特征,避免只依赖单一类型数据带来的局限,减少在不同数据类型之间切换的额外开销,提升训练效率。

在基于 veRL 对 Qwen2.5-VL 进行强化学习训练时,若同时追求高分辨率与高帧率采样,而又缺乏上下文并行(CP,Context Parallelism)能力,显存将迅速成为瓶颈,难以支撑更长序列与更大像素规模的训练需求。

NVIDIA 在 veRL 框架中针对 Qwen2.5-VL 模型支持了 THD format 上下文并行功能,兼顾语言与视觉(图文)模态,通过在各 CP rank 间均匀分配上下文并保障通信一致性,实现了良好的负载均衡与稳定吞吐。

然而,该方案尚未覆盖视频切分,也未考虑「同一 batch 中同时包含纯文本、图文、视频-文本对」等复杂的混训场景,难以完全满足真实业务中多模态组合负载的实际需求。

针对客户在实际场景中提出的新要求,百度百舸团队与 NVIDIA 联合推动 veRL 上下文并行能力在具身智能领域的落地。

百度百舸在社区已有工作的基础上,完成了 veRL 的深度适配,在 Qwen2.5-VL 等模型上率先实现了视频 CP 支持,并构建了多模态混训能力。当前版本已全面支持 Qwen2.5-VL 全系列模型,并为其他多模态大模型预留了扩展路径。

具体而言,百度百舸完成了两项关键能力增强

  • 新增视频 CP 切分机制,可直接支撑高分辨率、高帧率的长视频数据集训练,实现上下文的线性拓展;同时在基于 Ampere 架构 SM80 的环境中优化 attention 后端选择,进一步加速训练效率。

  • 面向多模态混训 + 视频 CP 这一复杂组合场景,我们重构并优化了分片通信机制,系统性解决了稳定性相关问题。

在客户场景的实际测试中,相比社区原有方案,百度百舸的方案经过合理的切分配置,单段视频支持的帧数上限提升超过 2 倍,单帧最大分辨率上限提升超过 2.6 倍,可以大幅缩短训练时间。同时显存占用更低,训练曲线更加平稳。在模型效果上,在既有评测集上的准确率评分提升约 5%。

结果表明,基于 veRL 多模态混训的视频上下文并行的技术路线在真实业务中具备良好的可复制性与持续演进潜力。

http://www.dtcms.com/a/570303.html

相关文章:

  • 微网站介绍html做网站头部
  • 如何上传文件到自己的网站wordpress+边框插件
  • 专业的消防风机机电一体化创新厂家
  • 网站建设中模随手app怎么转版
  • 网站建设都需要什么wordpress附件修复
  • 嵌入式网络编程深度优化 --网络协议栈配置实战指南
  • 如何再工商局网站做设备抵押怎样查看网站是否被百度收录
  • static constexpr 有什么作用,适用场景是?
  • 现代C++核心特性——内存篇
  • 教师资格资源合集
  • tp5.1做的网站学校如何重视校园网站建设
  • 江西网站开发软件公司网页设计实训报告结束语
  • 生成模型实战 | β-VAE详解与实现
  • 司马阅与众创集团达成生态战略合作,构建 “综合企业服务资源 + AI智能技术”的创新赋能体系
  • 一张白纸,无限画布:SkyReels刚刚重新定义了AI视频创作
  • Java_ArrayList底层结构和源码分析
  • 局域网创建网站怎么自建一个网站
  • 网站建设问题及解决办法北京网站建设方案品牌公司
  • 网站建设电销话术开场白搜索网排名
  • 中国建设银行官网站汽车卡一级做ae视频直播可以吗多少钱
  • 电子学会青少年机器人技术(三级)等级考试试卷-理论综合(2025年9月)
  • 长沙公司核名网站wordpress的图片存在哪里
  • 【IC】NoC设计入门 -- router模块
  • 网站做项目网络营销方案策划书
  • 外贸功能网站建设电脑课程培训零基础
  • 网站建设策划公司凡科建站怎样建站中站
  • 侯捷STL标准库和泛型编程
  • BigDecimal是怎么比较大小的
  • 【MCU控制 初级手札】1.6 电解质 【化学基础】
  • Paimon 文件索引深度解析:以 Bitmap 索引为例