当前位置: 首页 > news >正文

通过强化学习让大模型自适应开启思考模式

论文标题

AdaptThink: Reasoning Models Can Learn When to Think

论文地址

https://arxiv.org/pdf/2505.13417

代码地址

https://github.com/THU-KEG/AdaptThink

作者背景

清华大学

动机

思考模式提高了大模型处理复杂问题的能力,但最近有不少工作报告了许多简单任务上,繁琐的思考不仅开销更大,反而还可能降低回答准确性。于是有人利用空或简单的思考标签,将思考模型改造成了非思考模型,提高了简单任务上的准确率

<think> Okay, I think I have finished thinking. </think>

于是我们很自然地想到,可以动态控制大模型的思考长度,从而更高效地应对不同难度的问题。之前也介绍过一些相关的工作,但都是通过超参数或规则来改变思维链,而本文旨在让大模型学会自行判断启用何种思考模式,以达到最优的性能与效率

Uncert-CoT: 计算不确定性判断是否启用CoT
如何精准控制大模型的推理深度

本文方法

本文提出AdaptThink,核心思想是让推理模型能够根据问题的难度自适应地选择“Thinking”(思考)或“NoThinking”(不思考)的回答模式

一、优化目标

考虑到在推理效率上,无思考模式相较于有思考模式有着显著的优势,一个理想的选择策略应该在整体性能不下降的情况下,倾向于选择无思考模式。具体地,使用无KL项的PPO风格优化目标:
在这里插入图片描述

其中,clip是裁剪函数,用于提高训练流程的稳定性;A(x, y)是优势函数:

  • 1(y1=)是一个指示函数,当y为非思考模式开头时为1,思考模式下则为0
  • δ是超参数,用于控制非思考模式的优势程度
  • R(x,y) 是奖励函数,表示回答准确性
  • R_bar_ref(x)是参考模型平均奖励,用于对策略模型奖励分数的归一化

二、重要性采样

由于我们是在推理模型上进行对齐训练,初始阶段模型响应都是思考模式的结果,所以使用了重要性采样技术。定义一个新分布:

在这里插入图片描述

在t=1的冷启动阶段,我们强制让模型推理的第一个token为或W_start,前者是类似于之前介绍的NoThinking方法(通过空的思考标签让模型跳过思考),后者是一个常用于开启长思考的单词(例如 Alright)
当冷启动结束 t>1 时,则回归原始模型的采样

实验结果

作者在1.5B和7B的R1-distill-Qwen模型上进行了实验,结果表明在3种数学题基准上,AdaptThink 显著减少了推理成本,同时进一步提高了模型的准确性
在这里插入图片描述

相关文章:

  • 十四、面向对象底层逻辑-BeanFactoryPostProcessor接口设计
  • 塔能智能照明方案——贵州某地区市政照明改造实践
  • UE(虚幻)学习(六)插件打包在UE5.3.2下Value cannot be null的错误
  • 科技赋能,开启现代健康养生新潮流
  • matlab+opencv车道线识别
  • 火语言RPA--EmpireV7相册发布
  • 中级网络工程师知识点9
  • Go 语言简介
  • arrow-0.1.0.jar 使用教程 - Java jar包运行方法 命令行启动步骤 常见问题解决
  • C#新建打开文件对话框
  • 【Unity网络编程知识】协议生成工具Protobuf
  • 《量子雷达》学习(1) 2025.5.20
  • C#调用GTS控制板
  • 口腔牙科小程序源码介绍
  • 【工具使用】STM32CubeMX-USB配置-实现U盘功能
  • 【Vue篇】组件的武林绝学:状态风暴下的乾坤挪移术
  • 详解MySQL 的 binlog,redo log,undo log
  • FreeSWITCH 纯内网配置
  • 第10天-Python操作MySQL数据库全攻略:从基础连接到高级应用
  • Java中的集合详解
  • 权威访谈丨国家疾控局就《世界卫生组织大流行协定》答记者问
  • 6月底将返回中国,旅日大熊猫获颁“感谢状”
  • 锚定建设“中国樱桃第一县”目标,第六届澄城樱桃营销季启动
  • 藤井树与藤井树:岩井俊二式的爱情,情书的三重生命
  • 金融监管总局将研究出台专门的城市更新项目贷款管理办法:引导大力支持城中村的改造等
  • 特朗普与普京就俄乌问题通话