当前位置: 首页 > news >正文

【论文笔记】【强化微调】T-GRPO:对视频数据进行强化微调

tulerfeng/Video-R1: Video-R1: Reinforcing Video Reasoning in MLLMs [🔥the first paper to explore R1 for video]

1. 引述

在强化微调中,像 GRPO、DAPO 这样的方法都是对文本或者图片进行微调思考,所以这类微调方法不对时序信息做处理,因此无法很好的迁移到视频的强化微调中。

虽说目前有不少视频理解的工作,但是都没有加上强化微调的方法。也就是说,针对视频数据的强化微调很稀缺。

于是几个大学(港大+清华+中科大)联合搞了一个 Video-R1,提出 T-GRPO,实现对视频进行思考。

2. T-GRPO

T-GRPO 的核心思路如上图。

相比 GRPO,T-GRPO 的创新在于使大模型微调的时候,能关注时序信息。做法就是将视频数据复制一份,并将这一份的视频帧打乱,打乱视频帧的视频就没有时序信息了。

于是,设置奖励,使得模型在分析视频内容时,要求对有时序信息的视频帧分析正确,对乱序的视频帧分析错误。写成公式如下:(这里的 \alpha 设置为 0.3)

r_t = \begin{cases} \alpha, & \text{if } p \geq \tilde{p} \\ 0, & \text{otherwise} \end{cases}

于是乎,T-GRPO 的核心奖励如下:

R_i = \begin{cases} r_i + r_t, & \text{if } o_i \text{ is correct} \\ r_i, & \text{otherwise} \end{cases}

其中,r_i 代表问题是否回答正确。这个公式的意思就是说,如果有时序信息的视频帧的分析效果比乱序的更好,那么奖励就是 r_i+r_t

除此之外,还对模型输出长度通过奖励做了限制。如果输出长度少,还有额外奖励:

R_i = \begin{cases} R_i + \omega, & \text{if } o_i \text{ is correct and } l_{\min} \leq \mathrm{len}(o_i) \leq l_{\max} \\ R_i, & \text{otherwise} \end{cases}

最小长度 l_\text{min} 被设置为 320,最大长度 l_\text{max} 被设置为 512

相关文章:

  • WPF调试三种工具介绍:Live Visual Tree、Live Property Explorer与Snoop
  • TMultiplexedProtocol 和 TMultiplexedProcessor
  • java 找出两个json文件的不同之处
  • Python Day55
  • Taro 跨端开发:从调试到发布的完整指南
  • Odoo 17 Many2one字段内联编辑完整实现方案
  • Zephyr 调试实用指南:日志系统、Shell CLI 与 GDB 全面解析
  • gRPC 与 Protobuf 的深度集成 —— 从服务定义到多语言交互(Go + Java 示例)
  • 将浮点数转换为分数
  • C#测试调用ClosedXML根据批注设置excel单元格内容
  • 【舞蹈】编排:如何对齐拍子并让小节倍数随BPM递减
  • 经典控制理论:线性化笔记
  • PowerBI HtmlContent生成表格
  • 磁性传感器在电机控制闭环系统中的反馈作用
  • 【JAVA】数组的使用
  • 数据分析核心指标体系:从求和、计数到比较的全维度计算方法
  • 基于ARM ubuntu如何进行交叉编译
  • 针对机器人自修复材料的具体推荐及特性分析
  • 操作系统进程与线程核心知识全览
  • 如何定时发布WordPress文章(多种方法)
  • 速效成交型网站/宁波seo
  • 西宁做网站的公司bj君博沟通/ip软件点击百度竞价推广
  • 云服务器做网站难吗/软件培训机构有哪些?哪个比较好
  • 做网站后台系统的规范/信息流广告的特点
  • seo自动优化软件安卓/优化怎么做
  • 做网站按什么收费多少/新手怎样推销自己的产品