当前位置：首页 > news >正文

Thinkless：基于RL让LLM自适应选择长/短推理模式，显著提升推理效率和准确性！！

news 2025/8/17 15:35:15

摘要：能够进行扩展的推理链（chain-of-thought reasoning）的推理语言模型（Reasoning Language Models），在需要复杂逻辑推理的任务上展现出了卓越的性能。然而，对所有问题都应用复杂的推理过程常常会导致显著的计算效率低下，特别是当许多问题本身就存在简单直接的解决方案时。这引发了这样一个开放性问题：大型语言模型（LLMs）能否学会何时进行思考？为了回答这一问题，我们提出了 Thinkless，这是一个可学习的框架，能够使 LLM 根据任务的复杂性以及模型自身的能力，自适应地在简短推理和长篇推理之间进行选择。Thinkless 在强化学习范式下进行训练，并采用两种控制标记：<short> 用于简洁的回答，<think> 用于详细的推理。我们方法的核心是一种解耦的组相对策略优化（Decoupled Group Relative Policy Optimization，DeGRPO）算法，该算法将混合推理的学习目标分解为两个部分：（1）控制标记损失，用于管理推理模式的选择；（2）回答损失，用于提高生成答案的准确性。这种解耦的公式化方法使得我们能够对每个目标的贡献进行精细控制，稳定训练过程，并有效防止了在普通 GRPO 中观察到的崩溃现象。在经验性实验中，Thinkless 在多个基准测试（如 Minerva Algebra、MATH-500 和 GSM8K）上能够将长链推理的使用减少 50% - 90%，显著提高了推理语言模型的效率。

一、背景动机

二、核心贡献

三、实现方法

3.1 基于SFT的蒸馏

3.2 强化学习

四、实验结论

4.1 准确率和推理效率提升

4.2 DeGRPO 训练分析

一、背景动机

大模型通过链式思考在处理复杂的推理任务中有明显的效果，这些模型通过链式思考（chain-of-thought reasoning）生成中间步骤，最终得出答案。然而，这种复杂的推理过程在处理简单问题时会导致不必要的计算开销，例如增加内存占用和计算成本。

该文章提出了 Thinkless，这是一个可学习的框架，能够使 LLM 根据任务的复杂性以及模型自身的能力，自适应地在简短推理和长篇推理之间进行选择。Thinkless 在强化学习范式下进行训练，并采用两种控制标记：<short> 用于简洁的回答，<think> 用于详细的推理。

二、核心贡献

论文题目：Thinkless: LLM Learns When to Think

论文地址：https://arxiv.org/pdf/2505.13379

1、提出Thinkless框架，Thinkless是一个可学习的框架，使LLMs能够根据任务复杂性和模型自身能力，自适应地选择短形式（short-form）和长形式（long-form）推理。

2、设计了DeGRPO强化学习算法，该算法将混合推理的学习目标分解为两个部分

控制推理模式的选择
提高生成答案的准确性。这种解耦方法能够平衡两个目标的贡献，稳定训练过程，并有效防止模式崩溃。

3、在多个基准测试（如Minerva Algebra、MATH-500和GSM8K）中，Thinkless能够将长链推理的使用减少50%到90%，显著提高了推理语言模型的效率。