当前位置：首页 > news >正文

Vision-R1：用 “冷启动 + 强化学习” 解锁多模态模型的推理能力

news 2025/10/15 16:59:31

关键词：多模态大模型、推理能力、冷启动、强化学习

1. 研究背景

多模态推理短板：现有MLLMs擅长视觉理解，但复杂推理（如数学解题）能力不足，传统方法生成的思维链（CoT）缺乏人类认知逻辑。
RL训练瓶颈：直接对MLLMs应用强化学习（RL）易导致推理混乱，需数据与算法双重优化。

2. Vision-R1核心方法

冷启动初始化：
- 构建高质量多模态CoT数据集（Vision-R1-cold）：通过模态桥接（MLLM生成Pseudo-CoT）和文本推理增强（DeepSeek-R1优化），生成包含质疑、反思的复杂推理链。
渐进式思维抑制训练（PTST）：
- RL训练早期限制推理长度，引导模型聚焦正确逻辑，后期逐步放松，平衡简单与复杂任务。
- 结合组相对策略优化（GRPO）算法，解决过度思考问题。

3. 实验突破

数学推理：Vision-R1-7B在MathVista基准上准确率73.5%，接近OpenAI O1（73.9%），参数仅为后者1/10。
泛化能力：在ChartQA、MMStar等通用任务中表现优于基线模型。
数据质量验证：Vision-R1-cold中“Wait”“Check”等反思词汇出现频率是LLaVA-CoT的254倍，更贴近人类思维。

4. 研究价值

首次证明RL训练可有效提升MLLMs的复杂推理能力，为多模态模型在教育、科研等领域的应用奠定基础。

http://www.dtcms.com/a/80575.html

相关文章：

AI音乐创作原理：解锁创意与算法的完美结合

【AVRCP】蓝牙AVRCP协议中的L2CAP互操作性要求深度解析

Servlet介绍（详细）

C# 事件机制详解：定义、订阅、触发与应用实践

大数据学习（78）-spark streaming与flink

rust学习笔记16-206.反转链表(递归)

用java代码开发一个安卓app，实现账号注册登录

算法训练篇06--力扣611.有效三角形的个数

coze ai assistant Task5

相机光学中一些疑难问题的解释

共注意力机制及创新点深度解析

小程序开发中的用户反馈收集与分析

Grid布局示例代码

ubuntu20如何升级nginx到最新版本（其它版本大概率也可以）

基于carla的模仿学习（附数据集CORL2017）更新中........

虚拟化加密恢复---惜分飞

Flink实时统计单词【入门】

MySQL -- 索引

IOS接入微信方法

压力测试实战指南：JMeter 5.x深度解析与QPS/TPS性能优化

ABC395题解

算法系列——有监督学习——4.支持向量机

VNA操作使用学习-01 界面说明

洛谷每日1题-------Day25__P1424 小鱼的航程（改进版）

【51单片机实物设计】基于51单片机的声控感光LED灯设计（可以在数码管显示光强或LCD显示年月日时分秒和光强）

拓展 Coco AI 功能 - 智能检索 Hexo 博客

leetcode热题100道——字母异位词分组

lmbench测试方法

Java 分布式高并发重试方案及实现

Modbus通信协议基础知识总结及应用