当前位置: 首页 > news >正文

DeepSeek、GPT-5都在卷的“快慢脑”,腾讯中科院给出了更优解:还是多模态的!

一、导读

本研究旨在解决当前多模态大语言模型 (MLLM) 在集成“逐步思考”能力后面临的效率困境:虽然该能力显著提升了复杂推理任务的性能,但在处理简单问题时会造成不必要的计算开销。为应对这一挑战,论文提出了R-4B,一个具备自动思考 (auto-thinking) 能力的MLLM,能够根据问题复杂度自适应地决定是否启用思考过程。其核心方法论包含两个阶段:首先,通过一种名为双模态退火 (bi-mode annealing) 的训练策略,使模型同时掌握“思考”和“不思考”两种能力。该阶段依赖于一个精心构建的双模态数据集。其次,为解决模型在决策时倾向于不思考的“思维萎缩 (thinking atrophy)”问题,论文提出了一种名为双模态策略优化 (Bi-mode Policy Optimization, BPO)强化学习 (RL) 算法。该算法强制模型在训练中同时探索两种模式的效用,从而学会最优的决策策略。最终,R-4B在多个基准测试中取得了领先性能,以更低的计算成本达到了与更大规模模型相媲美的推理水平,为开发更智能、高效的MLLM提供了有效路径。

二、论文基本信息

基本信息

  • 论文标题:4B: INCENTIVIZING GENERAL-PURPOSE AUTO-THINKING CAPABILITY IN MLLMS VIA BI-MODE ANNEALING AND REINFORCE LEARNING

  • 作者:Tencent Hunyuan Team, Institute of Automation, CAS

  • 作者单位:腾讯混元团队,中国科学院自动化研究所

摘要精炼

本文旨在解决MLLM在简单问题上不必要地调用复杂思考过程所导致的效率低下问题。为此,研究团队提出了R-4B,一个能根据问题复杂度自适应决策是否进行思考的自动思考MLLM。其核心技术贡献在于一个两阶段训练范式:首先通过双模态退火,在一个包含思考与非思考样本的特制数据集上训练,使模型兼具两种能力;接着,应用改进的GRPO框架——**双模态策略优化 (BPO)**,强制模型对每个输入同时生成两种模式的响应,从而优化其决策准确性。关键结论是,R-4B在25个挑战性基准测试中达到了SOTA水平,在大部分任务上超越了Qwen2.5-VL-7B,并在计算成本更低的情况下,于推理密集型基准测试中取得了与更大参数模型(如Kimi-VL-A3B-Thinking-2506,16B)相当的性能。

➔➔➔➔点击查看原文,获取更多大模型相关资料https://mp.weixin.qq.com/s/_2f41iXDAVnxOom0gEiffw

三、研究背景与相关工作

研究背景

近年来,通过引入显式的“逐步思考”过程(如使用<think>标签包裹推理步骤),MLLM在数学推理、科学图表理解等复杂任务上的表现得到显著提升。然而,这种“永远思考”的默认行为模式存在固有缺陷:在处理如“这道菜叫什么?”之类的简单问题时,复杂的推理过程不仅冗余,还浪费了大量计算资源。这种性能与效率之间的矛盾日益突出,因此,开发一种能根据问题难度自动启用或禁用思考能力的自动思考范式,对于构建更智能、更高效的MLLM至关重要。

相关工作

先前对自动思考的探索存在局限性。一些模型(如Qwen3)需要用户手动激活思考模式,未能实现自动化。另一些方法尝试通过强化学习(RL)训练自动思考能力,但通常依赖于人工设计的、复杂的奖励函数或标注数据,且主要局限于纯文本模态。最近,Keye-VL虽首次尝试了多模态自动思考,但其方法需要为训练数据手动构建复杂的分析,过程不精确且在推理时引入了额外的Token开销。这些现有方法的不足,凸显了市场对于一个更智能、计算效率更高的通用自动思考解决方案的迫切需求。

四、主要贡献与创新

提出R-4B:一个通用的自动思考MLLM

  • 论文设计并实现了一个能够根据输入内容的复杂度,自主在“思考”与“直接回答”两种模式间切换的4B级MLLM,有效平衡了推理性能与计算效率。

提出双阶段训练范式

  • 双模态退火 (Bi-mode Annealing): 设计了一种启发式驱动的数据构建策略,系统性地将数据分为推理和非推理两类。通过在该混合数据集上训练,使模型基座(R-4B-Base)同时掌握了两种核心能力。

  • 双模态策略优化 (BPO): 提出了一种新颖的RL算法,通过强制模型在训练时对同一问题生成“思考”和“非思考”两种响应路径(即双模态部署, bi-mode rollouts),并基于简单的规则化奖励进行优化,有效解决了模型的“思维萎缩”问题,教会模型何时进行思考。

实现SOTA性能与效率

  • R-4B在25个公开基准测试上取得了优异性能。如图1所示,它不仅在性能上超越了同规模的先进模型,还在计算成本更低的情况下,在多个高难度推理基准上媲美甚至超越了参数量远大于自身的模型。

五、研究方法与原理

总体框架与核心思想

本研究的核心思想是采用“先赋予能力,再教会决策”的两阶段训练策略,来构建一个高效的自动思考模型。

  1. 阶段一:双模态退火 (能力赋予)

    • 目标:使基础模型同时精通“思考”和“非思考”两种响应模式。

    • 实现:通过一种启发式驱动的数据策管策略(如图3所示),利用一个强大的现有MLLM(Qwen2.5-32B-VL)作为标注器,将数据自动分为需要推理的“硬样本”和可直接回答的“简单样本”。随后,将这些数据统一格式化(思考样本包含<think>...</think>,非思考样本则包含空的<think> </think>),混合后对模型进行微调,得到具备双模态能力的R-4B-Base。

  2. 阶段二:双模态策略优化 (BPO) (决策学习)

    • 目标:解决R-4B-Base在面对复杂问题时倾向于“不思考”的思维萎ősz(thinking atrophy)问题,教会模型根据问题难度自适应选择模式。

    • 实现:提出BPO算法,该算法是GRPO框架的改进。其核心创新在于**双模态部署 (bi-mode rollouts)**(如图6所示),即对每个输入,通过添加特殊token(如<thinking token>)强制策略模型生成一个“思考”响应组和一个“非思考”响应组。通过对比这两种路径的奖励,模型可以学习到一个最优的自适应决策策略。

关键实现与评估原理

关键实现细节

  • 数据格式化:在退火阶段,所有数据均采用统一的指令跟随结构,思考样本格式为<think>reasoning steps</think>answer,非思考样本为<think> </think>answer,确保结构一致性。

  • 双模态部署:在BPO阶段,通过在输入提示中确定性地附加特殊token(如<thinking token><non-thinking token>)来强制生成特定模式的响应,从而确保对两种策略的均衡探索。

  • 简单奖励机制:BPO避免了复杂的奖励工程,仅利用数学问题领域的简单、基于规则的奖励信号,却表现出强大的泛化能力,能推广到其他非数学领域。

核心评估原理与指标

  • BPO的优化目标通过以下公式定义,旨在最大化奖励并约束策略模型与参考模型的偏离度:

  • 其中, 代表思考和非思考两种模式的部署(rollouts), 是策略比率, 是优势值, 和 是超参数。

  • 实验评估主要采用各基准的准确率(Accuracy)平均输出Token数,前者衡量性能,后者衡量效率。

六、实验结果与分析

实验设置

  • 数据集: 在25个多样化的公开基准上进行评估,涵盖通用视觉问答 (MMMU, MMStar)、图表与文档理解 (AI2D, CharXiv)、数学推理 (MathVista, MathVerse) 等。

  • 评估指标: 主要使用各基准定义的准确率。在分析效率时,使用平均每查询输出Token数

  • 对比基线: 与多个前沿开源MLLM进行比较,包括非思考模型 (InternVL3-8B, Qwen2.5-VL-7B)、思考模型 (Kimi-VL-A3B-Thinking-2506) 和自动思考模型 (Keye-VL-8B)。

  • 关键超参: 推理时采用贪心解码(greedy decoding),温度(temperature)设为0,最大生成长度为8,192个token。

核心实验与结论

【一项最核心的实验:不同模式下的Token消耗量对比】

  • 实验目的: 该实验旨在验证R-4B-RL的自动思考模式是否能有效根据任务复杂度动态调整计算开销(以输出Token数量衡量),实现性能与效率的最佳权衡。

  • 关键结果: 如图7所示,实验结果清晰地展示了自动思考模式的智能适应性:

    • 简单任务(如OCRBench)上,自动思考模式的平均输出Token数(66个)与非思考模式(57个)相近,远低于思考模式(394个),同时性能并未受损。

    • 复杂推理任务(如MathVista和WeMath)上,自动思考模式的平均输出Token数(分别为996和1278个)显著增加,接近完全思考模式(分别为1136和1382个)。

  • 作者结论: 作者认为,该实验证明了通过BPO学到的自动思考策略是真正智能且可泛化的。模型能有效辨别不同领域的任务复杂度,在需要时投入更多计算资源以确保高性能,在任务简单时则节约资源,从而在性能和效率之间达到了近乎最优的平衡。

七、论文结论与启示

总结

本文成功提出了R-4B,一个旨在解决MLLM推理效率与性能矛盾的4B级自动思考模型。通过创新的双模态退火双模态策略优化(BPO)两阶段训练范式,R-4B被赋予了兼顾“思考”与“非思考”的能力,并学会了如何根据问题复杂度智能地选择响应模式。实验证明,R-4B不仅在25个基准测试中表现出色,超越了同级别模型,还以更低的计算成本达到了与更大规模模型相媲美的推理性能。这项工作为开发下一代更智能、资源效率更高的MLLM提供了坚实的理论基础和可行的技术路径。

展望

论文的结论强调了该研究为开发更智能、更高效的MLLM指明了一条有效途径。未来的研究可以沿着这条路径继续探索:

  • 更精细的思考控制:研究如何在思考过程中实现更细粒度的控制,例如动态调整思考的深度和广度。

  • 跨模态奖励机制:虽然本文证明了简单奖励的泛化性,但探索更通用的、跨模态的奖励函数可能进一步提升决策的精确度。

  • 更广泛的应用:将此自动思考机制推广到更多模态(如视频、音频)和更广泛的应用场景中,是值得探索的方向。

➔➔➔➔点击查看原文,获取更多大模型相关资料https://mp.weixin.qq.com/s/_2f41iXDAVnxOom0gEiffw

http://www.dtcms.com/a/364427.html

相关文章:

  • 什么是科技成果鉴定测试?成果鉴定测试报告带给企业什么好处?
  • c语言链表:从入门到精通
  • 深度学习篇---SGD+Momentum优化器
  • wpf之Border
  • 嵌入式 - 硬件:51单片机(2)
  • 08、Linux 安全组开放端口
  • sed——Stream Editor流编辑器
  • 软件测试中的Bug知识总结
  • 81-dify案例分享-零代码用 Dify 使用梦 AI 3.0 多模态模型,免费生成影视级视频
  • 光伏设计方案怎么对比?360°展示规避空间问题
  • Bug 排查日记:从入门到精通
  • 微服务多级缓存:从问题到实战(小白也能看懂的亿级流量方案)
  • MP4视频太大如何压缩?分享6种简单便捷的压缩小技巧
  • 微服务的编程测评系统20-虚拟机-nginx-部署
  • dockerfile文件的用途
  • Day20_【机器学习—逻辑回归 (2)—分类评估方法】
  • 机器学习与深度学习的 Python 基础之 NumPy(2)
  • 构建安全的自动驾驶:软件测试中的编码规范与AI验证
  • 数据结构_循环队列_牺牲一个存储空间_不牺牲额外的存储空间 Circular Queue(C语言实现_超详细)
  • 机器学习-逻辑回归
  • 数据结构:图的表示 (Representation of Graphs)
  • 下一代自动驾驶汽车系统XIL验证方法
  • 基于机器学习的Backtrader波动性预测与管理
  • MySQL--CRUD
  • Qt使用Maintenance添加、卸载组件(未完)
  • MySQL 中的窗口函数详解:从入门到实战
  • Django 命令大全:从入门到精通,开发者必备指南
  • 【QT随笔】事件过滤器(installEventFilter 和 eventFilter 的组合)之生命周期管理详解
  • 微信小程序wx.getLocation结合腾讯地图逆解析获取位置详细教程,定位授权完整流程
  • 【Qt】国际化(中英文翻译)——Qt语言家(Linguist)和QTranslator类的简单使用(内含完整源码)