当前位置: 首页 > news >正文

【论文笔记】【强化微调】TinyLLaVA-Video-R1:小参数模型也能视频推理

[2504.09641] TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning

1. 引述

继之前的一篇 Video-R1 的工作,一篇新的关于视频推理的工作很快就上传到 Arxiv 上 “占坑” 了,这个工作是关于使用小参数(3B)的 LLM 进行视频推理。

之前那篇 Video-R1 的工作:【论文笔记】【强化微调】T-GRPO:对视频数据进行强化微调-CSDN博客

为什么说是 “占坑” 呢?这篇论文采用 GRPO 作为微调方法,并未说明为什么不采用 T-GRPO,而只是在其第 5 节 Conclusion and Future Work 提了一句当前微调方法有局限,未来慢慢改进。

其原文如下:

Currently, TinyLLaVA-Video-R1 employs the GRPO algorithm for training. However, this approach exhibits notable limitations. To enhance its effectiveness in video reasoning tasks, we plan to refine the algorithm by addressing the key challenges observed in our experiment.

纵观整篇论文,其核心目的是探索小模型的推理能力,而得到的结果是这样的小模型也能很好推理,并且能在强化微调后能比肩 7B 模型。下图就是 Qwen-7B 和强化微调后的 Qwen-3B 的对比实验:

有这篇论文作为依据,后续的研究就可以采用 3B 小模型,也不吃资源算力了。

2. 奖励设置

这篇论文是微调小参数 LLM,用的算法是传统 GRPO,因此方法核心点就在于奖励的设计上了。论文的奖励设计有三点:

  • 格式奖励:格式是否正确
  • 思考奖励:鼓励正确的长思考
  • 准确奖励:回答问题正确给奖励

首先是格式奖励,论文要求 LLM 输出结果得有思考过程 <think> 和输出答案 <answer>,并且每次输出只能有一对 <think></think> 和一对 <answer></answer>,格式正确之后给予 r_0 的奖励。

然后是思考奖励,论文鼓励 LLM 进行长文本的思考,<think> 的长度 Len 越长,则奖励越多,最大为 r_1,但是存在一个上限 ML,这是为了防止 LLM 无脑堆文本。思考奖励呈线性,写成公式如下:

LR = \min \left(1, \frac{\mathrm{Len}}{ML} \right) \times r_1.

论文定义格式奖励包含了思考奖励,也就是说格式奖励的公式如下:

FR=LR+r_0

最后是正确性奖励,回答正确给予 r_2 的得分,答错不给分。而正确答案的得分 r_2 和格式最大得分 r_0+r_1 是一致的,也就是说 r_2=r_0+r_1,这是为了让答案得分和格式得分具有相同的权重。公式如下:

AR=r_2=r_0+r_1

最终的模型奖励如下:

R = \begin{cases} AR + FR, & \text{if } FR > 0 \text{ and } AR = r_2 \\ -FR, & \text{if } FR > 0 \text{ and } AR = 0 \\ -(r_0 + r_1 + r_2), & \text{if } FR = 0 \end{cases}

也就是说,当格式且答案正确时,得分是正确性奖励 AR 和格式奖励 FR 的总和;当答案错误时,你的思考过程被试做全错,此时给予惩罚 -FR,如果你的 <think> 文本越长,惩罚越重;当格式都错误时,给予最大惩罚。

相关文章:

  • `customRef` 在实战中的使用:防抖、计算属性缓存和异步数据获取
  • 广州华锐互动:以技术创新引领虚拟现实体验新高度
  • 基于机器学习的侧信道分析(MLSCA)Python实现(带测试)
  • 【Linux】Ubuntu 24.04 远程桌面控制
  • RA4M2开发涂鸦模块CBU(2)----配置按键开启LED
  • 神经中枢革命:对象模型耦合CMMM,AI进化引擎重塑PLM-实现智能工厂从卓越级到领航级的自驱跃迁,打造制造业数字进化操作系统
  • 【批量文件查找】根据文件名清单一次性查找多个文件复制到指定位置,批量查找文件的使用步骤和注意事项
  • WevServer实现:异步日志写与HTTP连接
  • [muduo] ThreadPool | TcpClient | 异步任务 | 通信测试
  • 基于Python、tkinter、sqlite3 和matplotlib的校园书店管理系统
  • SimpleITK——创建nrrd体素模型
  • 电子电气架构 --- 实时系统评价的概述
  • 实战-通过Hutool实现双ID链法
  • (二)yolov5——模型检测
  • 华为云 Flexus+DeepSeek 实战:华为云单机部署 Dify-LLM 开发平台全流程指南【服务部署、模型配置、知识库构建全流程】
  • Mac电脑-触摸板增强工具-BetterTouchTool
  • ZZNU大一下 英语选填期末复习
  • 深入解析ID3算法:信息熵驱动的决策树构建基石
  • Python元组及字符串
  • 微处理器原理与应用篇---计算机系统的结构、组织与实现
  • 网站商城怎么做app/百度精准搜索
  • 电子商务网站建设的好处有哪些/网络优化需要哪些知识
  • 做网站怎么添加背景图片/郑州网站运营
  • 网站建设 中企动力/网站seo啥意思
  • bootstrap微网站模板下载/网络营销有哪些就业岗位
  • wordpress 翻页没内容/福州短视频seo服务