当前位置: 首页 > wzjs >正文

国外网站建站seo助理

国外网站建站,seo助理,wordpress软件著作权,古董做推广哪个网站好Video-R1: Reinforcing Video Reasoning in MLLMs 原文摘要 研究动机: 探索R1范式在MLLMs中激励视频推理 核心挑战: 直接应用GRPO算法进行视频RL训练存在两大问题: 缺乏视频推理的时间建模高质量视频推理数据稀缺 解决方案: 提…

Video-R1: Reinforcing Video Reasoning in MLLMs

  • 原文摘要

    • 研究动机:

      • 探索R1范式在MLLMs中激励视频推理
    • 核心挑战:

      • 直接应用GRPO算法进行视频RL训练存在两大问题:
        • 缺乏视频推理的时间建模
        • 高质量视频推理数据稀缺
    • 解决方案:

      • 提出T-GRPO算法:专门设计用于鼓励模型利用视频中的时序信息进行推理

      • 数据策略:不仅使用视频数据,还整合高质量图像推理数据到训练中

    • 数据集构建:

      • 创建两个专用数据集:

        • Video-R1-CoT-165k:用于SFT冷启动
        • Video-R1-260k:用于RL训练
      • 两个数据集均包含图像和视频数据

    • 实验结果:

      • Video-R1-7B在视频空间推理基准VSI-bench达到37.1%准确率,超越GPT-4o

1. Introduction

  • 研究背景与现状

    • 文本域RL突破:基于规则的强化学习显著提升LLMs的推理能力

    • 多模态扩展尝试:近期研究开始将RL应用于MLLMs,多在图文推理上的探索,但视频推理领域仍未被系统研究

  • 核心挑战

    • 直接应用GRPO算法的问题

      • 时序建模缺失

        • 原始GRPO缺乏激励时序推理的显式奖励信号

        • 模型易采取"捷径策略"(如依赖单帧而非时序推理)(与Video-UTR发现的问题一致)

        • 后果:导致模型依赖表面视觉模式,阻碍复杂视频推理任务的泛化能力

      • 数据稀缺性

        • 现有视频数据集多聚焦简单识别任务

        • 缺乏需要强推理能力长推理路径的高质量样本

        • 限制:RL训练难以覆盖多样化的复杂推理模式

  • 解决方案

    • T-GRPO

      • 核心机制:通过对比有序帧与乱序帧的推理表现施加奖励
        • 仅当有序帧组正确率显著高于乱序组时给予正向奖励
        • 强制模型开发时序推理策略而非单帧捷径
    • 混合训练

      • 构建两大数据集

        • Video-R1-CoT-165k:用于SFT冷启动
        • Video-R1-260k:用于RL训练
      • 关键设计

        • 引入图像推理数据作为基础推理能力训练
        • 精选视频样本提供时序复杂性
        • 优势:缓解数据瓶颈+静态推理能力向动态场景迁移
  • 实验验证

    • 评测基准

      • 专项评测:VSI-Bench(空间推理)、VideoMMMU(多学科QA)
      • 通用评测:MVBench、TempCompass、VideoMME等
    • 结果

      • Video-R1-7B在VSI-Bench达到37.1%准确率,超越GPT-4o
      • 验证RL可解锁MLLMs的复杂时序推理能力

2. Related Works

2.1 MLLMs for video

  • 核心定位

    • 核心功能:视频理解是MLLMs的关键能力,使其能够解析动态视觉内容并进行推理

    • 现状概述:现有工作主要聚焦于视频感知任务,视频推理能力的开发仍属空白领域

  • 代表性工作

    • LLaMA-VID

    • VideoLLaMA2

    • LongVA

    • VISA

  • 领域局限性与研究空白

    • 当前重点:现有方法主要解决

      • 视频表征压缩(如LLaMA-VID)
      • 多模态融合(如VideoLLaMA2)
      • 长序列处理(如LongVA)
      • 感知级任务(如VISA的分割)
    • 未解决问题

      • 缺乏对视频推理能力的系统性探索
      • 现有模型在时序逻辑推理多步因果推断方面存在明显不足

2.2 LLM Reasoning

  • 发展过程

    • 传统方法局限

      • 早期研究依赖密集的步骤级监督或学习型奖励模型来指导推理路径
    • 范式突破

      • DeepSeek-R1开创基于规则的强化学习新范式

        • 关键发现:仅使用粗糙的结果级奖励即可激发强推理能力

        • 意义验证:通过精心设计的奖励结构和策略优化,模型能自主生成长思维链而无需中间监督

  • 后续发展

    • 跨领域扩展尝试

      • 文本域:Open Reasoner Zero复现类似RL流程
      • 图像域:Kimi k1.5探索基于规则的RL增强多模态推理
      • 共性特征:均沿用R1的"规则优先"设计理念
    • 现存空白: 尚无研究将R1范式系统应用于视频时序推理

3. Methods

3.1 Data Construction

  • 数据收集和构建

    • 混合数据动机

      • 核心问题:高质量视频推理数据稀缺

      • 解决方案:引入图像推理数据作为补充

        • 图像数据作用:训练通用静态推理能力
        • 视频数据作用:训练时序推理能力
    • Video-R1-260k 构成

      • 视频数据(116k):General (Video)

        • 开放域多样化视频

        • 覆盖日常生活场景

        • 作用:构建时序理解与推理能力

      • 图像数据(共146k)

        类别数据量核心功能典型任务示例
        General15k基础视觉理解通用图像问答
        Chart21k数据解读与定量逻辑图表/折线图/科学图表推理
        OCR16k文本嵌入内容推理标志牌/表格/文档解析
        Math37k符号与几何推理公式推导/几何图形多步计算
        Knowledge37k多学科知识整合视觉常识+专业领域推理
        Spatial20k空间信息理解三维结构推理/方位判断

  • CoT标注

    • 采用Qwen2.5-VL-72B-Instruct作为标注工具

    • 提示词设计

    • 模板规范

    • 质量过滤:基于规则的自动化筛选

    • 用途:专用于冷启动SFT阶段

  • 基于规则的奖励设计

    • 设计原则

      • 核心要求:确保奖励信号可靠且精确(reliable and precise)

      • 实现方式: 主要采用可验证输出的任务类型(如多选题、数值答案)

    • 奖励函数设计

      • 多选题:二元奖励

      • 数值QA:严格数值相等

      • OCR任务:词错误率(Word Error Rate, WER)

      • 自由生成(Free-form QA):ROUGE-1/2/L平均值

      • 回归问题(Regression):误差越小,奖励越高

3.2 T-GRPO

  • 核心动机

    • GRPO局限性:原始GRPO缺乏显式时序奖励信号,无法有效训练视频推理

    • 关键创新:提出T-GRPO,通过对比时序有序与乱序帧的推理表现,强制模型学习依赖时序信息

  • 机制设计

    • 双路径输入对比

      输入类型生成响应组正确率符号
      时序有序帧序列{oᵢ}ᵢ₌₁ᴳp
      随机乱序帧序列{õᵢ}ᵢ₌₁ᴳ͂
    • 时序奖励公式
      r t = { α if  p ≥ p ~ 0 otherwise ( α = 0.3 ) r_t = \begin{cases} \alpha & \text{if } p \geq \tilde{p} \\ 0 & \text{otherwise} \end{cases} \quad (\alpha=0.3) rt={α0if pp~otherwise(α=0.3)

      • 超参数设定:α=0.3(控制奖励强度)

      • 生效条件:仅当有序帧组正确率≥乱序组时激活

    • 奖励增强
      R i = { r i + r t if  o i 正确 r i 否则 R_i = \begin{cases} r_i + r_t & \text{if } o_i \text{正确} \\ r_i & \text{否则} \end{cases} Ri={ri+rtriif oi正确否则

      • 双重奖励构成
        • 基础奖励 rᵢ:来自答案正确性+格式奖励
        • 时序奖励 rₜ:仅增强正确且依赖时序的响应
    • 优势值计算
      A i = R i − mean ( { R j } ) std ( { R j } ) A_i = \frac{R_i - \text{mean}(\{R_j\})}{\text{std}(\{R_j\})} Ai=std({Rj})Rimean({Rj})

    • 策略优化目标:和GRPO一致

3.3 训练策略

  • 训练阶段一:SFT冷启动

    • Base Model:Qwen2.5-VL-7B-Instruct

    • 训练数据:Video-R1-CoT-165k

    • 训练目标:初始化基础推理能力

    • 输出模型:Qwen2.5-VL-7B-SFT

  • 阶段二:RL强化训练

    • 输入模型:Qwen2.5-VL-7B-SFT

    • 训练数据:Video-R1-260k

    • 长度奖励机制

      • 奖励条件

        • 答案正确且响应长度∈[320, 512] tokens
      • 奖励公式
        R i = { R i + ω 满足条件 R i 否则 ( ω = 0.2 ) R_i = \begin{cases} R_i + \omega & \text{满足条件} \\ R_i & \text{否则} \end{cases} \space (\omega=0.2) Ri={Ri+ωRi满足条件否则 (ω=0.2)

      • 设计意图

        • 避免"过短肤浅"与"过长发散"两个极端
    • 输出模型:Video-R1-7B – 最终结果

4. Experiments

4.1 Setup

  • Benchmarks

    • Video Reasoning Benchmarks

      • VSI-Bench

      • VideoMMMU

      • MMVU

    • General-purpose Video Understanding Benchmarks

      • MVBench

      • TempCompass

      • VideoMME

  • 解码设置

    • top_p = 0.001

    • temperature = 0.01

  • Training Details

    • 训练资源:

      • 使用最多 8张 NVIDIA A100 80GB 显卡

      • 最大训练帧数为 16帧

      • 每帧图像训练时分辨率:128 × 28 × 28

      • 推理时分辨率提升为:256 × 28 × 28,帧数在 16 ∼ 64 之间

    • 视频处理结构:

      • 有序分组大小 G = 8

      • 打乱分组大小 G̃ = G / 2———保证效率的前提下增强建模能力。

    • 训练阶段:

      • 首先进行 SFT(监督微调)

        • 数据集:Video-R1-CoT-165k
        • 训练1轮(epoch),得到模型 Qwen2.5-VL-7B-SFT
      • 然后进行 RL(强化学习)训练

        • 数据集:Video-R1-260k
        • 训练步数:仅进行 1000步(1k steps)

4.2 Results

5. Limitations and Future Works

  • 帧数扩展(Increasing Frames Number)

    • 当前局限:仅支持16帧输入,限制长程时序依赖建模

    • 未来方案:开发高效训练/推理策略以处理更长视频

  • 时序建模优化(Better Temporal Modeling Method)

    • T-GRPO缺陷:对比评估带来额外计算开销

    • 改进路径

      • 采用vLLM等推理加速框架
      • 探索更高效的时序建模机制
  • 响应长度自适应(Adaptive Response Length Control)

    • 现有问题

      • 采用固定长度区间奖励
      • 未考虑样本复杂度差异
    • 演进方向

      • 开发动态长度控制策略
      • 根据问题难度/类型自适应调整
  • 图像-视频知识迁移(Image-to-Video Knowledge Transfer)

    • 当前策略:简单混合图像与视频数据

    • 优化空间

      • 设计理论驱动的迁移方法
      • 提升静态推理能力向动态场景的转化效率
  • 通用视频奖励模型(Generalist Video Reward Modeling)

    • 现有瓶颈:依赖任务定制化规则奖励

    • 突破方向

      • 构建统一视频奖励模型
      • 优势:
        • 提供跨任务一致性奖励信号
        • 减少人工规则依赖
http://www.dtcms.com/wzjs/238744.html

相关文章:

  • 网站备案 个人组网方案中国万网登录入口
  • 做ppt找图片的网站合肥关键词排名优化
  • 移动网站网上营业厅重庆森林壁纸
  • 外贸网站是怎么做的seo如何优化网站推广
  • 广州外贸网站建设辽宁好的百度seo公司
  • 什么样的网站高大上快手seo软件下载
  • 成都平台网站开发公司网站点击量统计
  • 在广州注册一个公司要多少钱关键词首页排名优化价格
  • 中原区建设局网站seo排名怎么优化软件
  • php网站开发实例代码中国科技新闻网
  • wordpress get post url山西优化公司
  • 石家庄做商城网站的公司新闻最近的大事10件
  • wordpress api 自定义认证郑州粒米seo外包
  • 1元购类似网站架设药多少钱西安网站外包
  • 网站建设准备资料什么是域名
  • 做网站出路seo群发软件
  • 家教中介网站怎么做学员引流成都网站建设方案服务
  • 怎样经营好一个网站惠州seo外包费用
  • 网站制作公司茂名seo教程搜索引擎优化
  • 下做图软件在哪个网站下载怎么免费建立网站
  • 网站打开空白 重启iis就好了海淀区seo引擎优化
  • 响应式网站建设服务商新的数据新闻
  • 自建网站代理服务器下载百度到桌面上
  • 文化传媒公司网站建设济南市新闻最新消息
  • 九一果冻制品厂最新电视重庆百度推广优化
  • c2c网站特点南宁一站网网络技术有限公司
  • 成都建设网站建设淄博网络推广公司哪家好
  • 邯郸去哪做网站改版搜索广告是什么意思
  • 启博微分销官网成都官网seo服务
  • 网站建设出售北京做seo的公司