当前位置：首页 > news >正文

【论文阅读】Video-R1: Reinforcing Video Reasoning in MLLMs

news 来源：原创 2025/6/28 9:16:30

Video-R1: Reinforcing Video Reasoning in MLLMs

原文摘要
- 研究动机：
  - 探索R1范式在MLLMs中激励视频推理
- 核心挑战：
  - 直接应用GRPO算法进行视频RL训练存在两大问题：
    - 缺乏视频推理的时间建模
    - 高质量视频推理数据稀缺
- 解决方案：
  - 提出T-GRPO算法：专门设计用于鼓励模型利用视频中的时序信息进行推理
  - 数据策略：不仅使用视频数据，还整合高质量图像推理数据到训练中
- 数据集构建：
  - 创建两个专用数据集：
    - Video-R1-CoT-165k：用于SFT冷启动
    - Video-R1-260k：用于RL训练
  - 两个数据集均包含图像和视频数据
- 实验结果：
  - Video-R1-7B在视频空间推理基准VSI-bench达到37.1%准确率，超越GPT-4o

1. Introduction

研究背景与现状
- 文本域RL突破：基于规则的强化学习显著提升LLMs的推理能力
- 多模态扩展尝试：近期研究开始将RL应用于MLLMs，多在图文推理上的探索，但视频推理领域仍未被系统研究。
核心挑战
- 直接应用GRPO算法的问题：
  - 时序建模缺失：
    - 原始GRPO缺乏激励时序推理的显式奖励信号
    - 模型易采取"捷径策略"（如依赖单帧而非时序推理）（与Video-UTR发现的问题一致）
    - 后果：导致模型依赖表面视觉模式，阻碍复杂视频推理任务的泛化能力
  - 数据稀缺性：
    - 现有视频数据集多聚焦简单识别任务
    - 缺乏需要强推理能力或长推理路径的高质量样本
    - 限制：RL训练难以覆盖多样化的复杂推理模式
解决方案
- T-GRPO
  - 核心机制：通过对比有序帧与乱序帧的推理表现施加奖励
    - 仅当有序帧组正确率显著高于乱序组时给予正向奖励
    - 强制模型开发时序推理策略而非单帧捷径
- 混合训练
  - 构建两大数据集：
    - Video-R1-CoT-165k：用于SFT冷启动
    - Video-R1-260k：用于RL训练
  - 关键设计：
    - 引入图像推理数据作为基础推理能力训练
    - 精选视频样本提供时序复杂性
    - 优势：缓解数据瓶颈+静态推理能力向动态场景迁移
实验验证
- 评测基准：
  - 专项评测：VSI-Bench（空间推理）、VideoMMMU（多学科QA）
  - 通用评测：MVBench、TempCompass、VideoMME等
- 结果：
  - Video-R1-7B在VSI-Bench达到37.1%准确率，超越GPT-4o
  - 验证RL可解锁MLLMs的复杂时序推理能力

2. Related Works

2.1 MLLMs for video

核心定位
- 核心功能：视频理解是MLLMs的关键能力，使其能够解析动态视觉内容并进行推理
- 现状概述：现有工作主要聚焦于视频感知任务，视频推理能力的开发仍属空白领域
代表性工作
- LLaMA-VID
- VideoLLaMA2
- LongVA
- VISA
领域局限性与研究空白
- 当前重点：现有方法主要解决
  - 视频表征压缩（如LLaMA-VID）
  - 多模态融合（如VideoLLaMA2）
  - 长序列处理（如LongVA）
  - 感知级任务（如VISA的分割）
- 未解决问题：
  - 缺乏对视频推理能力的系统性探索
  - 现有模型在时序逻辑推理和多步因果推断方面存在明显不足

2.2 LLM Reasoning

发展过程
- 传统方法局限
  - 早期研究依赖密集的步骤级监督或学习型奖励模型来指导推理路径
- 范式突破
  - DeepSeek-R1开创基于规则的强化学习新范式
    - 关键发现：仅使用粗糙的结果级奖励即可激发强推理能力
    - 意义验证：通过精心设计的奖励结构和策略优化，模型能自主生成长思维链而无需中间监督
后续发展
- 跨领域扩展尝试
  - 文本域：Open Reasoner Zero复现类似RL流程
  - 图像域：Kimi k1.5探索基于规则的RL增强多模态推理
  - 共性特征：均沿用R1的"规则优先"设计理念
- 现存空白：尚无研究将R1范式系统应用于视频时序推理

3. Methods

3.1 Data Construction

数据收集和构建

混合数据动机
- 核心问题：高质量视频推理数据稀缺
- 解决方案：引入图像推理数据作为补充
  - 图像数据作用：训练通用静态推理能力
  - 视频数据作用：训练时序推理能力

Video-R1-260k 构成

视频数据（116k）：General (Video)
- 开放域多样化视频
- 覆盖日常生活场景
- 作用：构建时序理解与推理能力

图像数据（共146k）

类别	数据量	核心功能	典型任务示例
General	15k	基础视觉理解	通用图像问答
Chart	21k	数据解读与定量逻辑	图表/折线图/科学图表推理
OCR	16k	文本嵌入内容推理	标志牌/表格/文档解析
Math	37k	符号与几何推理	公式推导/几何图形多步计算
Knowledge	37k	多学科知识整合	视觉常识+专业领域推理
Spatial	20k	空间信息理解	三维结构推理/方位判断

CoT标注
- 采用Qwen2.5-VL-72B-Instruct作为标注工具
- 提示词设计
- 模板规范：
- 质量过滤：基于规则的自动化筛选
- 用途：专用于冷启动SFT阶段
基于规则的奖励设计
- 设计原则
  - 核心要求：确保奖励信号可靠且精确（reliable and precise）
  - 实现方式：主要采用可验证输出的任务类型（如多选题、数值答案）
- 奖励函数设计
  - 多选题：二元奖励
  - 数值QA：严格数值相等
  - OCR任务：词错误率（Word Error Rate, WER）
  - 自由生成（Free-form QA）：ROUGE-1/2/L平均值
  - 回归问题（Regression）：误差越小，奖励越高

3.2 T-GRPO

核心动机
- GRPO局限性：原始GRPO缺乏显式时序奖励信号，无法有效训练视频推理
- 关键创新：提出T-GRPO，通过对比时序有序与乱序帧的推理表现，强制模型学习依赖时序信息
机制设计
- 双路径输入对比
  
  输入类型 生成响应组 正确率符号
  时序有序帧序列 {oᵢ}ᵢ₌₁ᴳ p
  随机乱序帧序列 {õᵢ}ᵢ₌₁ᴳ͂ p̃
- 时序奖励公式
  $r_t = \begin{cases} \alpha & \text{if } p \geq \tilde{p} \\ 0 & \text{otherwise} \end{cases} \quad (\alpha=0.3)$
  - 超参数设定：α=0.3（控制奖励强度）
  - 生效条件：仅当有序帧组正确率≥乱序组时激活
- 奖励增强
  $R_i = \begin{cases} r_i + r_t & \text{if } o_i \text{正确} \\ r_i & \text{否则} \end{cases}$
  - 双重奖励构成：
    - 基础奖励 rᵢ：来自答案正确性+格式奖励
    - 时序奖励 rₜ：仅增强正确且依赖时序的响应
- 优势值计算
  $A_i = \frac{R_i - \text{mean}(\{R_j\})}{\text{std}(\{R_j\})}$
- 策略优化目标：和GRPO一致

输入类型	生成响应组	正确率符号
时序有序帧序列	{oᵢ}ᵢ₌₁ᴳ	p
随机乱序帧序列	{õᵢ}ᵢ₌₁ᴳ͂	p̃

3.3 训练策略

训练阶段一：SFT冷启动
- Base Model：Qwen2.5-VL-7B-Instruct
- 训练数据：Video-R1-CoT-165k
- 训练目标：初始化基础推理能力
- 输出模型：Qwen2.5-VL-7B-SFT
阶段二：RL强化训练
- 输入模型：Qwen2.5-VL-7B-SFT
- 训练数据：Video-R1-260k
- 长度奖励机制
  - 奖励条件：
    - 答案正确且响应长度∈[320, 512] tokens
  - 奖励公式：
    $R_i = \begin{cases} R_i + \omega & \text{满足条件} \\ R_i & \text{否则} \end{cases} \space (\omega=0.2)$
  - 设计意图：
    - 避免"过短肤浅"与"过长发散"两个极端
- 输出模型：Video-R1-7B – 最终结果

4. Experiments

4.1 Setup

Benchmarks
- Video Reasoning Benchmarks
  - VSI-Bench
  - VideoMMMU
  - MMVU
- General-purpose Video Understanding Benchmarks
  - MVBench
  - TempCompass
  - VideoMME
解码设置：
- top_p = 0.001
- temperature = 0.01
Training Details
- 训练资源：
  - 使用最多 8张 NVIDIA A100 80GB 显卡
  - 最大训练帧数为 16帧
  - 每帧图像训练时分辨率：128 × 28 × 28
  - 推理时分辨率提升为：256 × 28 × 28，帧数在 16 ∼ 64 之间
- 视频处理结构：
  - 有序分组大小 G = 8
  - 打乱分组大小 G̃ = G / 2———保证效率的前提下增强建模能力。
- 训练阶段：
  - 首先进行 SFT（监督微调）：
    - 数据集：Video-R1-CoT-165k
    - 训练1轮（epoch），得到模型 Qwen2.5-VL-7B-SFT
  - 然后进行 RL（强化学习）训练：
    - 数据集：Video-R1-260k
    - 训练步数：仅进行 1000步（1k steps）

4.2 Results

5. Limitations and Future Works

帧数扩展（Increasing Frames Number）
- 当前局限：仅支持16帧输入，限制长程时序依赖建模
- 未来方案：开发高效训练/推理策略以处理更长视频
时序建模优化（Better Temporal Modeling Method）
- T-GRPO缺陷：对比评估带来额外计算开销
- 改进路径：
  - 采用vLLM等推理加速框架
  - 探索更高效的时序建模机制
响应长度自适应（Adaptive Response Length Control）
- 现有问题：
  - 采用固定长度区间奖励
  - 未考虑样本复杂度差异
- 演进方向：
  - 开发动态长度控制策略
  - 根据问题难度/类型自适应调整
图像-视频知识迁移（Image-to-Video Knowledge Transfer）
- 当前策略：简单混合图像与视频数据
- 优化空间：
  - 设计理论驱动的迁移方法
  - 提升静态推理能力向动态场景的转化效率
通用视频奖励模型（Generalist Video Reward Modeling）
- 现有瓶颈：依赖任务定制化规则奖励
- 突破方向：
  - 构建统一视频奖励模型
  - 优势：
    - 提供跨任务一致性奖励信号
    - 减少人工规则依赖