当前位置: 首页 > news >正文

Video-R1论文解读

目录

一、Video-R1

1、概述

2、方法

3、训练过程

4、实验


一、Video-R1

1、概述

        这个论文同样是将GRPO引入多模态大语言模型的方法,只不过Video-R1考虑的是视频的时序信息上的问题。

        动机:GRPO在视频时序问题上没有前人处理,所以仅依赖单帧的视觉特征会出现“短路推理”,导致推理中失去时序性。另外现有的视频数据集缺乏长链推理的复杂样本,多聚焦在识别任务上,限制模型泛化性。

        所以Video-R1,一是提出了一个新的T-GRPO算法可以处理激励模型学习时序依赖,二是构建了一个Video-R1-260k和Video-R1-CoT-165k数据集用于SFT和RL是更加专注时序推理。

2、方法

        Kimi k1.5和Skywork R1V都应用了强化学习在图像多模态大模型中,提高了理解能力,VIdeo-UTR模型将GRPO引入视频多模态大模型中发现,对视频的理解只会局限于每一帧的理解的简单拼接,并不会学会时序理解,所以他并不懂视频前后物体移动的关系。比如下图所示,GRPO不会理解视频中有没有青色方块进入。

Video-R1数据集

        Video-R1数据集分为两类,先介绍Video-R1-260K,其中图像数据占比较多,图像数据可以实现多任务,包括图表,OCR,数学,知识推理,空间推理等,当然传统图像VQA只占6%。视频数据来自于LLaVA-Video,Next-QA,PerceptionTest,CLEVERER,STAR等

        Video-R1-CoT-165K是Video-R1-260K经过Qwen2.5-VL-72B生成CoT标注后过滤得到,用于模型冷启动。

        当然对于不同数据采用不同的奖励办法,数据也有多选,数值QA,OCR,自由格式QA,回归五种,这个奖励可以参见下面链接的介绍:

3D-R1、Scene-R1、SpaceR论文解读-CSDN博客

T-GRPO算法

        时序对比奖励机制,这个很神奇。

        首先以往的视频数据输入不是有序的视频帧输入吗,这里我们同时采用有序帧和乱序帧两组均作为输入,此时就会得到两组输出响应集合\left \{ o_i \right \}_{i=1}^G,\left \{ \widetilde{o}_i \right \}_{i=1}^{\widetilde{G}},其中G=8,\widetilde{G}=4

        之后计算时序奖励r_t,要求是当有序帧组正确率p优于乱序帧组正确率\widehat{p}时才能获得额外奖励,强制模型利用时序信息学到推理内容。(其中α=0.3)

        另外计算基础奖励,也就是以往的格式奖励+答案正确性,定义为r_i

        最终奖励为若推理正确,我们引入时序奖励r_t,如果推理错误,那么不引入。只一点与SpaceR的地图规划奖励异曲同工。

        后面同样利用GRPO算法进行优化目标函数,这里不在介绍。T-GRPO训练流程如下:

3、训练过程

        主干网络仍然是Qwen2.5-VL-7B-Instruct,训练由两部分组成,先是SFT冷启动,采用CoT-165K的数据集,然后是RL强化训练采用260K的数据。数据均为图像-视频混合数据。

        另外在这两个阶段基础上,为了实现更长的上下文输出,所以引入了长上下文奖励,其实就是文本在[320,512]文字量之间,同时推理正确,那么我们加一个\omega,否则不考虑该奖励。这个在以往的方法上,在SpaceR也有涉及。(SpaceR还是后出的,但是就差了一周)

4、实验

        结果还是不错的,这个相当于VLA与视频多模态的结合。之前的SpaceR是VLA与3D多模态的结合。

        视频通用测试和视频理解指标,这里也能看到强化学习的提升。而且输入帧数越多,模型效果也有提升。

        图像数据对Video-R1也很重要,因为图像数据可以聚焦每一张图像的识别,定位等问题,视频数据更注重时序性。

        在训练过程中,强化学习也可以逐渐提升模型的准确性和时序性。        

        appendix的几个例子蛮好玩的。首先是MMVU数据集这个打台球、打保龄球和车辆碰撞的例子,问你那个例子是损失了能量,就是非动能守恒的。Video-R1先给出了场面描述,然后结合了下他了解到的物理规律,给出了最后一个车祸现场由于碰撞动能转换到热能损失了能量。

        MVBench的例子,老友记中罗斯为什么在回答瑞秋之前就离开了,有趣的感情剧,然后CoT给出了每一个选项的理解,认为只有D因为他在情感上没有等到回应所以有点伤心离开了,所以选了D。

参考论文:[2503.21776] Video-R1: Reinforcing Video Reasoning in MLLMs

http://www.dtcms.com/a/331853.html

相关文章:

  • 【深度学习新浪潮】VGGT论文分析
  • docker 如何下载安装配置使用
  • 数据结构:树(Tree)
  • c++中的Lambda表达式详解
  • Linux 对 YUM 包的管理
  • 20250814荣品RD-RK3588开发板在Rockchip原厂的buildroot【linux-5.10】下让eth0网卡跑iperf2测试网速
  • 机器学习初学
  • Linux 编译过程中遇到 TMPDIR 空间不足的问题
  • FPGA读取AHT20温湿度模块思路及实现,包含遇到的问题(IIC协议)
  • 举例说明环境变量及 PATH 的作用
  • ODE-by-Matlab-01-人口增长模型
  • Java进阶学习之Stream流的基本概念以及使用技巧
  • 不用编程不用组态,实现各种PLC之间数据通讯的网络结构示意图
  • Cookie、Session、Token详解
  • week1-[分支嵌套]公因数
  • P1281 [CERC1998] 书的复制
  • 跨域及解决方案
  • Product Hunt 每日热榜 | 2025-08-14
  • httpx 设置速率控制 limit 时需要注意 timeout 包含 pool 中等待时间
  • Effective C++ 条款40:明智而审慎地使用多重继承
  • 20道Vue框架相关前端面试题及答案
  • Uniapp 中 uni.request 的二次封装
  • stm32f103rct6开发板引脚图
  • 芯伯乐1MHz高频低功耗运放芯片MCP6001/2/4系列,微安级功耗精密信号处理
  • UML函数原型中stereotype的含义,有啥用?
  • 打靶日常-CSRF
  • 中国车企全球化数字转型标杆案例:SAP系统多项目整合升级实践
  • 考研408《计算机组成原理》复习笔记,第五章(2)——CPU指令执行过程
  • Day 11: 预训练语言模型基础 - 理论精华到实战应用的完整指南
  • k8s+isulad 网络问题