当前位置: 首页 > news >正文

视觉问答论文解析:《Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning》

《Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning》论文解析

一、研究背景与动机

近年来,“慢思考”多模态模型(如 OpenAI-o1、GeminiThinking、Kimi-1.5 和 Skywork-R1V)在数学和科学领域的复杂推理任务中取得了显著进展。这些模型通过模仿反思性认知过程,在数学和科学基准测试中的表现比“快思考”模型(如 GPT-4o 和 Claude3.5)高出 30%以上。然而,将慢思考策略扩展到多模态领域带来了新的挑战:在视觉推理任务(如 MMMU 和 MathVision)上表现提升的同时,通用感知基准测试(如 AI2D)上的性能却有所下降,且伴随着视觉幻觉现象的增加。如何在视觉 - 语言模型(VLMs)中有效促进慢思考行为而不损害其泛化能力成为关键问题。Skywork R1V2 应运而生,它通过直接强化学习(RL)而非教师模型蒸馏来获得多模态推理技能,并采用混合强化学习范式,结合混合偏好优化(MPO)和组相对策略优化(GRPO),以平衡推理能力和泛化能力。

二、研究方法

(一)高效多模态迁移的模块化重组

为减少对大规模多模态推理数据的依赖,Skywork R1V2 将视觉 - 语言表示的对齐与推理能力的保持解耦。具体来说,引入轻量级多层感知机(MLP)适配器(fc)来连接冻结的视觉编码器(fv)和具备推理能力的语言模型(fl)。其中,视觉编码器选用 InternViT-6B,语言模型选用 QwQ-32B。给定视觉输入 xv 和文本输入 xt,整体过程表示为 y = fl(fc(fv(xv)), xt)。与第一代 R1V 不同,R1V2 省略了监督式微调(SFT)阶段,而是采用模块化方法直接连接预训练推理语言模型与视觉适配器。实验表明,文本和视觉能力具有高度迁移性,改进某一模态可直接使另一模态受益。

(二)混合偏好优化(MPO)

MPO 是 R1V2 优化流程中的关键部分,其损失函数可表示为 L = w1Lpreference + w2Lquality + w3Lgeneration。其中,Lpreference 为 DPO 损失,用于优化正负样本之间的相对偏好;Lquality 为 BCO 损失,有助于模型理解单个响应的绝对质量;Lgeneration 为负对数似然损失(NLL),指导模型学习所选响应。MPO 策略能够将 Skywork-VL 奖励模型的偏好信号与手工规则约束相结合,使模型输出更好地符合风格偏好和事实要求。

(三)强化微调

在强化微调阶段,主要采用 GRPO 算法,并引入选择性样本缓冲(SSB)机制以增强强化学习过程的效率。

  • GRPO 算法与混合奖励信号 :GRPO 是一种策略优化算法,通过在特定查询的生成响应组内进行比较来计算逐标记优势估计。对于给定输入实例 x,行为策略 πθold 采样一批候选响应 {yi}Ni=1。第 i 个响应在时间步 t 的优势 Ai,t 通过标准化响应组内获得的奖励来确定。为减轻推理能力的“对齐税”,再次利用 Skywork-VL 奖励模型引入偏好奖励信号 rθ,补充基于规则的奖励 rrule,并加入格式奖励 rformat 以使模型输出与 DeepSeek R1 风格的聊天模板对齐。最终的混合奖励函数定义为 r(x, yi) = rrule(x, yi) + rθ(x, yi) + rformat(x, yi)。GRPO 优化目标包含一个剪切代理损失项和 KL 惩罚项,以确保策略更新的稳定性。

  • 通过 SSB 解决“优势消失”问题 :直接将 GRPO 应用于 VLMs 时,会遇到“优势消失”现象,即查询组内所有响应趋向于统一正确或错误,导致相对优势信号减弱,阻碍基于梯度的策略更新。SSB 机制通过识别并缓存之前迭代中具有非零优势的高质量训练样本,并通过加权采样优先考虑这些样本,将其重新引入策略更新中,从而维持梯度密集的训练环境,提高训练效率。

三、实验

(一)实验设置

  • 基准测试 :在文本推理基准测试方面,包括 AIME 2024、LiveCodebench、LiveBench、IFEVAL 和 BFCL;在多模态推理基准测试方面,包括 MMMU、MathVista、OlympiadBench、MathVision 和 MMMU-Pro。所有基准测试的最大生成长度均设置为 64K 令牌,采用统一的评估框架 LLM Judge(OpenAI-o4)进行评估,报告的性能指标为 Pass@1 分数,平均 5 次独立运行结果,以确保统计可靠性。

  • 基线模型 :与包括 Claude-3.5-Sonnet、OpenAI-o4-mini、OpenAI-o1、Gemini 2 Flash 和 Kimi k1.5 longcot 等在内的多种专有模型,以及 Skywork-R1V1、InternVL3-38B、QvQ-Preview-72B、Deepseek R1 和 Qwen2.5-VL-72B-Instruct 等先进开源模型进行比较。

(二)主要结果

  • 文本推理性能 :Skywork R1V2 在 AIME24 上达到 78.9%,在 LiveCodebench 上达到 63.6%,在 LiveBench 上达到 73.2%,在 IFEVAL 上达到 82.9%,在 BFCL 上达到 66.3%,相较于前代模型 R1V1 在各基准测试中均有显著提升,且在 LiveBench 和 BFCL 上优于参数规模更大的 Deepseek R1。

  • 多模态推理性能 :在 MMMU 上取得 73.6%,在 MathVista 上取得 74.0%,在 OlympiadBench 上取得 62.6%,在 MathVision 上取得 49.0%,在 MMMU-Pro 上取得 52.0%,超出同类参数规模的开源模型,并在 MMMU 上超越 Qwen2.5-VL-72B 和 QvQ-Preview-72B 等更大模型。与专有模型相比,在 MMMU 基准测试中超越 Claude 3.5 Sonnet、Gemini 2 Flash 和 Kimi k1.5 longcot,在 MathVista 上与 Gemini 2 Flash 和 Kimi k1.5 longcot 竞争,缩小了与 OpenAI-o4-mini 等更大专有模型的差距。

  • 通用视觉任务性能 :尽管 R1V2 专注于推理能力,但在文档理解任务上仍保持竞争力,在 AI2D 上达到 81.3%,在 ChartQA 上达到 79.0%,在 TextVQA 上达到 79.0%;在视频理解方面,VideoMME 上达到 60.2%,MVBench 上达到 61.5%,在需要时间推理的任务中表现出色,MMBench-Video 上得分为 1.92。通过 MPO 方法,幻觉率从标准 SFT 的 18.4% 降低到 8.7%,在保持合理事实准确性(RealWorldQA 上为 68.9%)的同时,在复杂推理任务上表现出色。

(三)定性分析

通过物理推理示例和数学推理示例展示了 R1V2 的推理能力。在物理推理方面,面对涉及旋转磁场和交流发电机的电磁问题,R1V2 能够正确识别交流电频率取决于磁铁的旋转速度而非线圈匝数;在数学推理方面,针对中国高考中的三维几何问题,R1V2 能够系统地分解问题、进行精确数学计算并验证解决方案的正确性。

(四)消融研究

  • 选择性样本缓冲(SSB)机制的效果 :SSB 机制显著提高了模型性能,在 MMMU 上达到 73.6%(无 SSB 时为 73.4%),在保持 MathVista 强劲性能(74.0%)的同时,有效样本比例保持在 60% 以上,而无 SSB 时低于 40%,有效解决了“优势消失”问题。

  • SFT 与 MPO 与混合方法的比较 :MPO 在减少事实错误方面表现出色,幻觉率仅为 8.7%,在复杂数学推理任务上,MPO 在 AIME 2024 上达到 79.0%,在 OlympiadBench 上达到 60.6%,显著优于 SFT。混合方法(MPO+GRPO)进一步提高了泛化能力,在 OlympiadBench 上达到 62.6%,在 AIME 2024 上接近最优性能(78.9%),成功平衡了推理能力与泛化能力。

  • 组件激活配置分析 :仅激活适配器的训练方式在所有基准测试中均取得了最佳结果,而激活语言模型(LLM)+ 适配器或适配器 + 视觉编码器的配置性能较低,表明主要收益来自改善视觉特征与语言处理之间的对齐,而非增强视觉编码本身。

  • MPO 阈值分析 :较高的阈值(如 15)相较于较低阈值(如 7)可使训练动态更稳定,模型在较少迭代次数下取得更好最终性能。较低阈值会出现初始性能提升随后下降的现象,而较高阈值能保持更一致的性能,这与奖励黑客现象观察结果一致。

四、结论与未来工作

Skywork R1V2 通过结合 GRPO、SSB 和 MPO 的混合强化学习方法,在多个推理和视觉基准测试中取得显著进步,为开源多模态模型设立了新标准。MPO 借助 Skywork-VL 奖励模型增强了 R1V 模型的对齐,有效减少了重复推理,同时保持了稳健的泛化能力;SSB 通过战略性保留具有明显优势信号的高质量示例,实现了稳定的策略更新。研究发现推理能力和视觉幻觉之间存在重要权衡,凸显了强化学习过程中精心校准奖励的必要性。未来工作将探索视觉与文本模态之间更复杂的集成机制,进一步细化推理与泛化之间的平衡,并将混合强化学习方法扩展到其他领域和模态。

在这里插入图片描述

相关文章:

  • 数电发票整理:免费实用工具如何高效解析 XML 发票数据
  • 数据采集,埋点模型
  • 论文公式根据章节自动编号教程
  • 阿里云服务迁移实战: 06-切换DNS
  • 10.idea中创建springboot项目_jdk17
  • 大连理工大学选修课——机器学习笔记(1):概述
  • 【Agent】MCP协议 | 用高德MCP Server制作旅游攻略
  • Java 表达式及运算符的优先级与结合性入门
  • Windows 10 环境二进制方式安装 MySQL 8.0.41
  • 异步协程中基于 aiomysql 的异步数据库操作
  • 第五部分:进阶项目实战
  • 2025平航杯—团队赛
  • c#确定按钮5秒自动确定
  • 涨薪技术|0到1学会性能测试第44课-apachetop模块监控
  • iview内存泄漏
  • 【Android】轻松实现实时FPS功能
  • 开源协议全解析:类型、选择与法律风险规避指南
  • Qwen3本地化部署,准备工作:SGLang
  • UDP报文结构
  • 跨境电商生死劫:IP筛查三法则破解封号魔咒
  • 来论|受美国“保护”,日本民众要付出什么代价?
  • 应急管理部派出工作组赴山西太原小区爆炸现场指导救援处置
  • 宁波市纪委监委通报4起违反中央八项规定精神典型问题
  • 江西德安回应“义门陈遗址建筑被没收”:将交由规范的义门陈相关社会组织管理
  • 锦江酒店:第一季度营业收入约29.42亿元,境内酒店出租率同比增长
  • 证据公布!菲律宾6人非法登上铁线礁活动