当前位置: 首页 > news >正文

【论文阅读】Video-R1: Reinforcing Video Reasoning in MLLMs

Video-R1: Reinforcing Video Reasoning in MLLMs

  • 原文摘要

    • 研究动机:

      • 探索R1范式在MLLMs中激励视频推理
    • 核心挑战:

      • 直接应用GRPO算法进行视频RL训练存在两大问题:
        • 缺乏视频推理的时间建模
        • 高质量视频推理数据稀缺
    • 解决方案:

      • 提出T-GRPO算法:专门设计用于鼓励模型利用视频中的时序信息进行推理

      • 数据策略:不仅使用视频数据,还整合高质量图像推理数据到训练中

    • 数据集构建:

      • 创建两个专用数据集:

        • Video-R1-CoT-165k:用于SFT冷启动
        • Video-R1-260k:用于RL训练
      • 两个数据集均包含图像和视频数据

    • 实验结果:

      • Video-R1-7B在视频空间推理基准VSI-bench达到37.1%准确率,超越GPT-4o

1. Introduction

  • 研究背景与现状

    • 文本域RL突破:基于规则的强化学习显著提升LLMs的推理能力

    • 多模态扩展尝试:近期研究开始将RL应用于MLLMs,多在图文推理上的探索,但视频推理领域仍未被系统研究

  • 核心挑战

    • 直接应用GRPO算法的问题

      • 时序建模缺失

        • 原始GRPO缺乏激励时序推理的显式奖励信号

        • 模型易采取"捷径策略"(如依赖单帧而非时序推理)(与Video-UTR发现的问题一致)

        • 后果:导致模型依赖表面视觉模式,阻碍复杂视频推理任务的泛化能力

      • 数据稀缺性

        • 现有视频数据集多聚焦简单识别任务

        • 缺乏需要强推理能力长推理路径的高质量样本

        • 限制:RL训练难以覆盖多样化的复杂推理模式

  • 解决方案

    • T-GRPO

      • 核心机制:通过对比有序帧与乱序帧的推理表现施加奖励
        • 仅当有序帧组正确率显著高于乱序组时给予正向奖励
        • 强制模型开发时序推理策略而非单帧捷径
    • 混合训练

      • 构建两大数据集

        • Video-R1-CoT-165k:用于SFT冷启动
        • Video-R1-260k:用于RL训练
      • 关键设计

        • 引入图像推理数据作为基础推理能力训练
        • 精选视频样本提供时序复杂性
        • 优势:缓解数据瓶颈+静态推理能力向动态场景迁移
  • 实验验证

    • 评测基准

      • 专项评测:VSI-Bench(空间推理)、VideoMMMU(多学科QA)
      • 通用评测:MVBench、TempCompass、VideoMME等
    • 结果

      • Video-R1-7B在VSI-Bench达到37.1%准确率,超越GPT-4o
      • 验证RL可解锁MLLMs的复杂时序推理能力

2. Related Works

2.1 MLLMs for video

  • 核心定位

    • 核心功能:视频理解是MLLMs的关键能力,使其能够解析动态视觉内容并进行推理

    • 现状概述:现有工作主要聚焦于视频感知任务,视频推理能力的开发仍属空白领域

  • 代表性工作

    • LLaMA-VID

    • VideoLLaMA2

    • LongVA

    • VISA

  • 领域局限性与研究空白

    • 当前重点:现有方法主要解决

      • 视频表征压缩(如LLaMA-VID)
      • 多模态融合(如VideoLLaMA2)
      • 长序列处理(如LongVA)
      • 感知级任务(如VISA的分割)
    • 未解决问题

      • 缺乏对视频推理能力的系统性探索
      • 现有模型在时序逻辑推理多步因果推断方面存在明显不足

2.2 LLM Reasoning

  • 发展过程

    • 传统方法局限

      • 早期研究依赖密集的步骤级监督或学习型奖励模型来指导推理路径
    • 范式突破

      • DeepSeek-R1开创基于规则的强化学习新范式

        • 关键发现:仅使用粗糙的结果级奖励即可激发强推理能力

        • 意义验证:通过精心设计的奖励结构和策略优化,模型能自主生成长思维链而无需中间监督

  • 后续发展

    • 跨领域扩展尝试

      • 文本域:Open Reasoner Zero复现类似RL流程
      • 图像域:Kimi k1.5探索基于规则的RL增强多模态推理
      • 共性特征:均沿用R1的"规则优先"设计理念
    • 现存空白: 尚无研究将R1范式系统应用于视频时序推理

3. Methods

3.1 Data Construction

  • 数据收集和构建

    • 混合数据动机

      • 核心问题:高质量视频推理数据稀缺

      • 解决方案:引入图像推理数据作为补充

        • 图像数据作用:训练通用静态推理能力
        • 视频数据作用:训练时序推理能力
    • Video-R1-260k 构成

      • 视频数据(116k):General (Video)

        • 开放域多样化视频

        • 覆盖日常生活场景

        • 作用:构建时序理解与推理能力

      • 图像数据(共146k)

        类别数据量核心功能典型任务示例
        General15k基础视觉理解通用图像问答
        Chart21k数据解读与定量逻辑图表/折线图/科学图表推理
        OCR16k文本嵌入内容推理标志牌/表格/文档解析
        Math37k符号与几何推理公式推导/几何图形多步计算
        Knowledge37k多学科知识整合视觉常识+专业领域推理
        Spatial20k空间信息理解三维结构推理/方位判断

  • CoT标注

    • 采用Qwen2.5-VL-72B-Instruct作为标注工具

    • 提示词设计

    • 模板规范

    • 质量过滤:基于规则的自动化筛选

    • 用途:专用于冷启动SFT阶段

  • 基于规则的奖励设计

    • 设计原则

      • 核心要求:确保奖励信号可靠且精确(reliable and precise)

      • 实现方式: 主要采用可验证输出的任务类型(如多选题、数值答案)

    • 奖励函数设计

      • 多选题:二元奖励

      • 数值QA:严格数值相等

      • OCR任务:词错误率(Word Error Rate, WER)

      • 自由生成(Free-form QA):ROUGE-1/2/L平均值

      • 回归问题(Regression):误差越小,奖励越高

3.2 T-GRPO

  • 核心动机

    • GRPO局限性:原始GRPO缺乏显式时序奖励信号,无法有效训练视频推理

    • 关键创新:提出T-GRPO,通过对比时序有序与乱序帧的推理表现,强制模型学习依赖时序信息

  • 机制设计

    • 双路径输入对比

      输入类型生成响应组正确率符号
      时序有序帧序列{oᵢ}ᵢ₌₁ᴳp
      随机乱序帧序列{õᵢ}ᵢ₌₁ᴳ͂
    • 时序奖励公式
      r t = { α if  p ≥ p ~ 0 otherwise ( α = 0.3 ) r_t = \begin{cases} \alpha & \text{if } p \geq \tilde{p} \\ 0 & \text{otherwise} \end{cases} \quad (\alpha=0.3) rt={α0if pp~otherwise(α=0.3)

      • 超参数设定:α=0.3(控制奖励强度)

      • 生效条件:仅当有序帧组正确率≥乱序组时激活

    • 奖励增强
      R i = { r i + r t if  o i 正确 r i 否则 R_i = \begin{cases} r_i + r_t & \text{if } o_i \text{正确} \\ r_i & \text{否则} \end{cases} Ri={ri+rtriif oi正确否则

      • 双重奖励构成
        • 基础奖励 rᵢ:来自答案正确性+格式奖励
        • 时序奖励 rₜ:仅增强正确且依赖时序的响应
    • 优势值计算
      A i = R i − mean ( { R j } ) std ( { R j } ) A_i = \frac{R_i - \text{mean}(\{R_j\})}{\text{std}(\{R_j\})} Ai=std({Rj})Rimean({Rj})

    • 策略优化目标:和GRPO一致

3.3 训练策略

  • 训练阶段一:SFT冷启动

    • Base Model:Qwen2.5-VL-7B-Instruct

    • 训练数据:Video-R1-CoT-165k

    • 训练目标:初始化基础推理能力

    • 输出模型:Qwen2.5-VL-7B-SFT

  • 阶段二:RL强化训练

    • 输入模型:Qwen2.5-VL-7B-SFT

    • 训练数据:Video-R1-260k

    • 长度奖励机制

      • 奖励条件

        • 答案正确且响应长度∈[320, 512] tokens
      • 奖励公式
        R i = { R i + ω 满足条件 R i 否则 ( ω = 0.2 ) R_i = \begin{cases} R_i + \omega & \text{满足条件} \\ R_i & \text{否则} \end{cases} \space (\omega=0.2) Ri={Ri+ωRi满足条件否则 (ω=0.2)

      • 设计意图

        • 避免"过短肤浅"与"过长发散"两个极端
    • 输出模型:Video-R1-7B – 最终结果

4. Experiments

4.1 Setup

  • Benchmarks

    • Video Reasoning Benchmarks

      • VSI-Bench

      • VideoMMMU

      • MMVU

    • General-purpose Video Understanding Benchmarks

      • MVBench

      • TempCompass

      • VideoMME

  • 解码设置

    • top_p = 0.001

    • temperature = 0.01

  • Training Details

    • 训练资源:

      • 使用最多 8张 NVIDIA A100 80GB 显卡

      • 最大训练帧数为 16帧

      • 每帧图像训练时分辨率:128 × 28 × 28

      • 推理时分辨率提升为:256 × 28 × 28,帧数在 16 ∼ 64 之间

    • 视频处理结构:

      • 有序分组大小 G = 8

      • 打乱分组大小 G̃ = G / 2———保证效率的前提下增强建模能力。

    • 训练阶段:

      • 首先进行 SFT(监督微调)

        • 数据集:Video-R1-CoT-165k
        • 训练1轮(epoch),得到模型 Qwen2.5-VL-7B-SFT
      • 然后进行 RL(强化学习)训练

        • 数据集:Video-R1-260k
        • 训练步数:仅进行 1000步(1k steps)

4.2 Results

5. Limitations and Future Works

  • 帧数扩展(Increasing Frames Number)

    • 当前局限:仅支持16帧输入,限制长程时序依赖建模

    • 未来方案:开发高效训练/推理策略以处理更长视频

  • 时序建模优化(Better Temporal Modeling Method)

    • T-GRPO缺陷:对比评估带来额外计算开销

    • 改进路径

      • 采用vLLM等推理加速框架
      • 探索更高效的时序建模机制
  • 响应长度自适应(Adaptive Response Length Control)

    • 现有问题

      • 采用固定长度区间奖励
      • 未考虑样本复杂度差异
    • 演进方向

      • 开发动态长度控制策略
      • 根据问题难度/类型自适应调整
  • 图像-视频知识迁移(Image-to-Video Knowledge Transfer)

    • 当前策略:简单混合图像与视频数据

    • 优化空间

      • 设计理论驱动的迁移方法
      • 提升静态推理能力向动态场景的转化效率
  • 通用视频奖励模型(Generalist Video Reward Modeling)

    • 现有瓶颈:依赖任务定制化规则奖励

    • 突破方向

      • 构建统一视频奖励模型
      • 优势:
        • 提供跨任务一致性奖励信号
        • 减少人工规则依赖

相关文章:

  • 安卓端某音乐类 APP 逆向分享(四)NMDI参数分析
  • 智能体记忆原理-prompt设计
  • swagger访问不了的解决方案 http://localhost:8080/swagger-ui/index.html
  • .NetCore+Vue快速生产框架开发详细方案
  • [ linux-系统 ] 磁盘与文件系统
  • 应收账款和销售收入有什么关系?
  • 高斯混合模型GMMK均值(十三-1)——K均值是高斯混合模型的特例
  • AAB包体安装
  • FrozenBatchNorm2d 详解
  • Java 大视界 -- Java 大数据在智能教育学习社群知识共享与协同学习促进中的应用(326)
  • spring ai入门实例
  • 论云原生架构及应用
  • macOS,切换 space 失效,向右切换space(move right a space) 失效
  • TCP四层模型:网络协议核心解密
  • 3ds Max贴图操作指南:从基础到应用
  • Java 工程智能化升级:飞算科技重构软件开发的技术范式
  • Python Selenium 滚动到特定元素
  • [Linux]mmap()函数内存映射原理及用法
  • K8s + Springboot 如何实现 优雅停机 + 不停服更新
  • Python 数据分析与可视化 Day 9 - 缺失值与异常值处理技巧