当前位置：首页 > news >正文

自适应长度惩罚强化学习的高效推理

news 2025/9/1 18:04:29

抽象

大型推理模型（LRM）通过在推理时生成更多标记，在具有挑战性的推理任务中实现更高的性能，但这种冗长通常会浪费对简单问题的计算。现有的解决方案（在较短的跟踪线上进行监督微调、用户控制的预算或具有统一处罚的 RL）要么需要数据管理、手动配置，要么无论难度如何，都一视同仁地处理所有问题。我们引入了自适应长度惩罚（ALP），这是一种强化学习目标，根据每个提示的解析率定制生成长度。在训练期间，ALP 通过多次推出来监控每个提示的在线解决率，并添加一个可微分的惩罚，其幅度与该比率成反比，因此置信（简单）提示会产生高额的额外令牌成本，而硬提示则不受阻碍。使用 ALP 的后训练 DeepScaleR-1.5B 可将平均令牌使用量减少 50%，而不会显著降低性能。相对于固定预算和统一惩罚基线，ALP 更智能地重新分配其减少的预算 — 减少简单提示的计算并将保存的令牌重新分配给困难的提示 — 以更高的成本在最困难的问题上提供更高的准确性。

1介绍

大型推理模型（LRM）通过花费更多的推理时间计算和更长的思维链跟踪，在复杂推理基准上取得了显著的收益，通常会产生更高的性能（Jaech 等人，2024).但是，这种冗长的代价是高昂的：延长的代数会增加计算和内存需求，增加延迟，尤其是对于简单查询。LRM 经常“过度思考”琐碎的提示，例如，DeepSeek-R1 和 Qwen-QwQ32B 通过追溯相同的初始推理步骤生成超过 10,000 个令牌来回答“什么是 2 + 3”，从而产生廉价但效率低下的推理轨迹（Wang 等人，2025).这可能是由于这些推理模型学会了提炼扩展搜索过程，以便它继续验证自己的答案并回溯到以前的状态以重新开始。造成这种情况的一个可能原因是在岗位培训期间缺乏正规化（Xiang 等人，2025).因此，在推理计算扩展时代，使推理模型能够自适应地分配推理时间计算至关重要。

挑战是显而易见的：模型如何学会自适应地分配计算，为简单的问题使用最少的标记，同时为真正困难的问题保留扩展的推理？当前的方法分为三类，每类都有很大的局限性。对精选的较短跟踪进行监督微调（Chen 等人，2025;Pouransari 等人，2024)需要昂贵的数据管理，并且可能会影响推理质量。用户控制的预算 — 是否通过在推理期间提前停止来强制执行（Muennighoff 等人，2025)或通过提示指定（Aggarwal 和 Welleck，2025)— 需要为每个使用案例进行手动配置。强化学习（RL）方法，仅对正确的解决方案应用惩罚（Team 等人，2025;阿罗拉和扎内特，2025)或在训练期间使用预定的长度截止值（Hou 等人，2025)减少冗长，但统一处理所有问题，无论其固有的难度如何。

我们介绍了自适应长度惩罚（ALP），这是一种简单而强大的方法，可教模型识别问题难度并相应地调整其推理长度。关键的见解是，在训练期间可以通过经验解决率在线估计难度——在多次尝试中一致解决的问题可能很容易，而解决率低的问题则真正具有挑战性。ALP 利用此信号来应用差分长度惩罚：简单的问题会因过多的令牌而受到强烈的惩罚，而困难的问题可以以最小的惩罚进行广泛的推理。至关重要的是，它可以自然地与任何依赖于基于组的优势估计的 RL 算法配合使用，包括广泛使用的 GRPO（Shao 等人，2024)以及 RLOO 和 Reinforce++（Ahmadian 等人，2024)，不会产生额外的计算成本。应用于 DeepScaleR-1.5B，ALP 实现了显著的效率提升，在保持准确性的同时，将平均令牌使用量减少了 50% 以上。更重要的是，我们的分析表明 ALP 学习复杂的适应策略。帕累托效率分析显示，ALP 仅将其代币预算的 21% 用于最简单的 50% 的问题，而固定长度基线则为 50%。这创造了一个计算盈余，ALP 战略性地将其部署在具有挑战性的问题上，在困难问题上实现 5.35× 个代币与简单问题上的代币。这些学习的策略在不同的问题分布中被证明是稳健的，从难度逐渐增加到 60% 的问题是比赛级别的极端场景。

我们的贡献是：

•

我们引入了自适应长度惩罚（ALP），这是一个 RL 目标，它与在线难度估计成反比地缩放长度惩罚，教模型在没有手动配置或推理时间开销的情况下内化问题难度。
•

我们证明，ALP 在多个基准中实现了卓越的效率-性能权衡，在保持准确性的同时显着减少了代币的使用，并优于现有的长度控制方法。
•

我们提供了全面的分析，展示了 ALP 如何学会将计算从简单问题重新分配到困难问题，在固定策略被证明效率低下的各种难度分布中保持稳健的性能。

2相关工作

推理时间扩展推理时扩展，即增加 LLM 使用的令牌数量，是提高模型性能的有效方法（Wu 等人，2024).许多以前的工作都证明了通过允许 LLM 执行各种搜索算法来有效地提高性能（Yao 等人，2023;Xie et al.，2024).Snell 等人（2024)表明扩展推理时间计算可能比扩展模型大小更有效，特别是扩展上下文生成优于基于并行采样的方法。Deepseek-r1 的DeepSeek-AI 等人（2025)在训练过程中，模型性能会随着响应的长度而大大提高。然而，这会导致一种权衡，即推理模型总体上花费更多的代币，即使对于更简单的问题也是如此。Chen 等人（2025)发现模型在产生初始正确解决方案后将继续生成，并且推理策略的多样性在跟踪中减少。

推理模型中的长度控制。已经提出了各种方法来控制推理模型中的生成长度。在奖励设计级别，Xiang et al. （2025)建议在阶梯级奖励中使用折扣因子来平衡长度和质量，尽管大多数当前的 RL 框架都缺乏阶梯级奖励支持。一些作品仅在 RL 训练期间对错误解决方案进行长度惩罚（Team 等人，2025;阿罗拉和扎内特，2025)，减少平均长度，同时保持成功跟踪的性能。Muennighoff 等人（2025)采用不同的方法，使用特殊标记来触发早期回答，尽管这会阻止模型学习有效的推理压缩。用户控制的方法也越来越受欢迎。Aggarwal 和 Welleck （2025)训练模型通过提示遵循用户指定的令牌预算，无论是精确（L1-Exact）还是最大值（L1-Max），实现显著的效率提升，同时优于基于令牌的提前停止。citethou2025thinkpruninglongchainofthought 采用迭代训练，长度限制逐渐严格（4k→3k→2k 代币），使用剪辑的奖励来执行这些限制。

虽然现有方法探索了控制生成长度的各种机制（固定预算、用户规范、提前停止或渐进约束），但它们有一个关键的局限性：它们不会根据每个问题实例的内在难度来调整长度。这些方法对所有问题应用统一的策略，不可避免地会在简单任务上过度推理，或者在复杂任务上推理不足。我们提出的 ALP 方法通过引入难度条件惩罚直接解决了这一差距，使模型能够学习特定于实例的计算分配。ALP 不需要手动配置或应用一揽子约束，而是教模型将问题难度内化，并为每个独特的挑战使用“恰到好处”的计算。

3方法

我们建议将 ALP 作为标准强化学习框架中的附加奖励项。我们的方法适用于任何 RL 算法，只要它受益于对问题的多个轨迹进行采样。以下是它的工作原理。让q成为提示，y=(y1,…,yn)是为生成的 chain-of-thought traceq跟N=|y|.让答⁢(y)表示提取的最终答案，而y∗是基本实况答案，并且K是的独立卷出数q.具体来说，在绘图后{y(k)}k=1K，我们在线计算经验求解率

高值p解决⁢(q)表示简单的提示，它会受到更高的惩罚，以减少花费在它们上的代币。低值表示较难的值，这会导致长度惩罚项小得多，从而允许模型花费更多的 token 来解决q.我们用一个长度惩罚来增加通常的准确率奖励，其权重与p解决⁢(q).让N是归一化常数（例如最大轨迹长度），并且β>0全局系数。对于每个 rollout(y,q)中，我们定义复合奖励

这里r准确性是正确答案的奖励，r长度按令牌收费（按1/N），加权β以及裁剪的求解速率。夹在1/K确保即使未解决的提示也会受到一些惩罚。为了获得解决率的准确估计，建议使用K>>1.算法 1 演示了完全集成到通用 RL 框架中。在每个训练步骤中，策略需要采样Krollouts （卷展栏）。采样完成后，我们将计算ps⁢o⁢l⁢v⁢e⁢d⁢(q)，然后评估组合奖励。然后 RL 循环照常继续。由于许多在线 RL 算法，包括分组相对策略优化（GRPO）（Shao 等人，2024)和 Reinforce++（Ahmadian 等人，2024)使用多个样本来减少优势估计的方差，在这些情况下，ALP 可以获得求解率而不会产生额外的计算成本。

算法 1 具有自适应长度惩罚的强化学习

1: 使用 ALP 的过程 RL（策略πθ)

2:      对于每个 训练步骤

3:          对于每个提示q 做

4:样本K推出{y(k)}∼πθ

5:计算p解决⁢(q)通过方程（ 1)

6:计算奖励{r⁢(y(k),q)}通过方程（ 2)

7:更新πθ使用策略梯度更新

8:          end 为

9:      end 为

10: 结束过程

4实验装置

训练和数据集在这项工作中，我们专注于使用数学领域来证明 ALP 的有效性，因为易于验证和现有的开源框架。我们在 DeepScaleR 上训练了 DeepScaleR-1.5B（Luo 等人，2025)，这是 AIME、2023 年之前的 AMC 问题、Omni-Math 中的问题的过滤汇编（Gao 等人，2024)和 Still 数据集（Min 等人，2024).我们选择的基本模型已经表现出在推理期间使用扩展计算资源以提高性能的能力。在训练期间，上下文窗口设置为 16384。我们使用从 VeRL 实现的 GRPO 以方程 2 中的目标训练 100 个步骤，批次大小为 512 的基本推理模型（Sheng 等人，2024).我们使用 DeepScaleR-1.5B 训练β=1⁢e−7在 5.1-5.4 节中进行比较。以下部分将这个经过训练的模型称为 ALP。有关超参数的详细信息，请参见 Section A.1。

评估我们评估了 ALP 和其他不同难度级别的数学问题模型，包括 AIME，我们将 2024 年和 2025 年结合起来，因此大小为 60，MATH-500（Hendrycks 等人，2021)和 OlympiadBench（他等人，2024).我们使用 Pass@1 作为性能指标，为了获得可靠的估计值，我们在 AIME 的每个提示中抽样 64 个答案，在 temperature=1 和 top=0.7 时，MATH-500 和 OlympiadBench 抽样 16 个答案，推理预算为(512,1024,2048,4096)适用于所有型号。由于 L1 模型是通过用户提示进行长度控制的训练，因此我们附加了一个额外的指令“Think for maximumN代币。（对于 L1-Max）和“考虑Ntokens“（对于 L1-Exact）添加到用户提示符下，N是上面提到的世代长度之一。用于特定模型的提示列表可在 Section A.1 中找到。

比较我们将 ALP 训练的模型与近期和同时期的工作在长度减少和长度控制方面进行了比较。由于资源限制，我们无法通过使用相同的 RL 超参数和基本模型进行训练来对每种方法进行头对头比较。我们直接使用公共检查点，并确保基础模型都具有相同的大小，这些模型在略有不同的数据集、超参数和步骤上进行训练。以下是我们在比较中包括的一些近期和同时期的作品：

•

L1-Exact - 训练 DeepScaleR-1.5B 遵循用户提示中指定的精确长度。
•

L1-Max - 从 L1-Exact 进一步训练，以将令牌使用量保持在最大限额内。
•

ThinkPrune-2K - 一种训练 DeepSeek-R1-Distill-Qwen-1.5B 的方法，通过应用减少长度的剪辑目标来减少标记的使用。我们选择经过训练的模型，以逐渐减少长度进行三次迭代 RL 训练（4k->3k->2k）。我们选择这个检查点是因为（Hou 等人，2025)报告称这是最有效的模型之一，退化程度很小。
•

R1-Alpha - 通过惩罚高于仅用于正确解决方案的提示的平均长度的响应长度来减少长度。此方法使用α来控制Pass@1和长度之间的权衡。根据（阿罗拉和扎内特，2025)，我们选择α=0.2因为它充分减少了 output tokens 而不会降低太多性能。

5结果和分析

在本节中，我们解决了推理模型中关于自适应长度惩罚的三个问题。首先，我们研究了与现有方法相比，ALP 是否在不牺牲性能的情况下实现了有意义的效率增益（第 5.1 - 5.2 节）。其次，我们研究了 ALP 如何学习适应——具体来说，模型是否真正理解了问题难度，以及这如何体现在其代币分配策略中（第 5.3-5.4 节）。最后，我们探讨了压缩的含义：减少标记的使用如何改变推理本身的性质，以及这些变化在不同模型和设置中是否一致（第 A.2 节）

图 1：Pass@1 具有不同推理预算（512、1024、2048、4096）的性能。通过设置生成令牌的最大数量来强制执行推理预算。

5.1Pass@1 效率权衡

与基本模型相比有显著改进。与原始 DeepScaleR-1.5B 相比，ALP 在所有数据集上将令牌使用量减少了约 50%，尤其是在较高的计算预算水平上，同时保持性能。值得注意的是，在 1024 个代币的预算下，ALP 在更简单的任务（数学）上实现了比基本模型高 40% 的Pass@1，这表明学习适应不仅可以减少平均计算，而且实际上可以通过更好地分配有限的资源来在有限的预算下提高性能。此外，我们注意到，在预算受限的情况下，性能改进会减少，因为问题变得越来越困难，这表明模型确实需要更多的代币来解决它们。

与其他长度减少方法的比较。图 1 显示了在难度递增的三个数学推理基准中性能和计算效率之间的权衡。在所有基准测试中，ALP 都表现出强大的性能，同时使用的令牌比基线少得多。关键的见解是，ALP 的效率提升在更简单的任务上最为明显——MATH-500，ALP 实现了与所有方法相当的Pass@1，同时除 L1-Max 外，使用的令牌减少了 50% 以上。这种模式验证了我们的核心假设：当问题难度不同时，自适应计算是最有益的，它允许模型在日常问题上节省大量计算。虽然 L1-Max 在 OlympiadBench 和 AIME 上实现了有竞争力的效率，但它需要用户先验地指定代币预算——这在问题难度未知的实践中是一个重大限制。相比之下，ALP 会自动调整其计算，而无需用户干预。L1-Exact 被限制为准确输出提示的长度，无法优化效率-性能权衡，并且始终表现不佳。ThinkPrune 在较高预算下表现出合理的效率，但在较低预算下却举步维艰（≤2048 个标记），这表明它通过截断而不是学习适应来减少长度。R1-Alpha 仅对正确解决方案应用固定长度惩罚，在具有挑战性的基准测试中显示效率最差，表明统一惩罚无法捕捉问题难度和最佳计算之间的关系。

5.2模型如何提高效率：自适应计算的 Pareto 分析

虽然第 5.1 节证明了 ALP 实现了卓越的令牌效率，但这种效率背后的机制仍不清楚。模型可以通过两种根本不同的策略来减少令牌的使用：统一压缩，即模型在任何地方使用更少的令牌，或者自适应分配，其中模型根据问题难度智能地分配计算。为了区分这些机制，我们分析了模型如何使用帕累托效率曲线在不同难度的问题之间分配代币。

我们将 MATH-500、OlympiadBench 和 AIME 中的所有问题组合在一起，创建多样化的难度范围，然后根据每个模型的求解率从最简单到最难对它们进行排序。对于每个模型，我们绘制了使用的代币的累积百分比与已解决问题的累积百分比（图 2，左）。这种可视化揭示了每个模型的分配策略：凸曲线表示对简单问题具有最小标记的自适应行为，然后对较难问题增加分配，而线性曲线表示无论难度如何，都具有恒定标记使用的均匀分配。每条曲线下的面积表示完全低效率，较低的区域表示整体效率较高。为了量化这些行为，我们计算了图 2（右）所示的两个互补指标。适应率衡量的是困难问题上使用的平均标记（解决率最低的 30%）除以简单问题的平均标记（前 30%），其中大于 1.0 的值表示自适应行为。效率分数（计算为 1 减去 Pareto 曲线下的归一化面积）捕获了模型在保持性能的同时最大限度地减少总计算量的程度。

ALP 在不牺牲效率的情况下学习极端适应。结果揭示了 ALP 如何分配计算资源的惊人模式。ALP 仅使用其总代币的 21% 来解决最简单的 50% 问题，这表明它对它认为简单的问题非常节俭。这与 L1-Exact 形成鲜明对比，后者正好使用 50% 的标记来解决 50% 的问题——一条完美的对角线，表示由其固定长度约束强制执行的统一分配。这种对简单问题的精简使 ALP 能够实现惊人的 5.35×适应率，为它认为困难的问题分配了五倍以上的代币。至关重要的是，这种积极的适应提高了而不是损害了整体效率，ALP 在所有测试方法中取得了 0.68 的最高效率得分就证明了这一点。

与现有方法的比较揭示了不同的策略。我们比较中的其他方法表现出不同程度的适应，这说明了不同的长度控制方法。即使没有明确的长度惩罚，原始的 DeepScaleR 模型也表现出自然适应（2.41×），这表明在标准训练期间会出现一些难度意识。然而，在使用 L1 目标进行训练后，L1-Exact 被约束以精确输出提示的长度，几乎没有适应，比率为 1.01×，证实了固定长度的约束阻止了难度感知的分配，而 L1-Max 表现出有限的适应（1.36×），尽管在其最大预算内具有灵活性，这表明用户指定的约束可能会进一步抑制基础模型中已经存在的适应。R1-Alpha 和 ThinkPrune 分别实现了 4.57× 和 2.81× 的大幅适应率，但它们较低的效率分数（0.64 和 0.61）表明，与 ALP 的学习策略相比，这些方法可能高估了难度或分配代币不理想。ALP 实现了最高的适应率和最高的效率分数，揭示了关于有效推理的基本见解，因为它发现对简单问题的极端吝啬会产生计算预算盈余，可以在不增加平均成本的情况下战略性地部署在具有挑战性的问题上。

请参阅标题

图 2：帕累托效率分析揭示了模型如何在不同难度的问题之间分配计算资源（推理预算 4096）。 （左）问题的累积代币分配曲线，从最简单到最难排序，在 MATH-500、OlympiadBench 和 AIME 数据集中汇总。阴影区域表示简单（0-50%）和困难（80-100%）问题范围。（右）适应率的计算方式为用于困难问题的代币/用于简单问题的代币。

5.3对未知难度分布的鲁棒性

在实际应用中，模型会遇到难度分布未知且变化不一的问题集。用户不能也不应该手动调整每个场景的计算预算。这需要模型能够根据遇到的实际问题动态调整其推理工作。为了评估不同方法处理不同问题混合物的能力，我们构建了以不同比例混合 MATH-500（代表标准难度）和 AIME（代表具有挑战性的问题）的对照实验。我们研究了两种互补的场景：（1） N=500 个问题的逐渐转变，其中 AIME 内容范围为 0% 到 12%，模拟了大多数问题是标准难度的典型部署，偶尔会遇到具有挑战性的情况，以及（2） N=100 个问题的极端变化，其中 AIME 内容范围从 0% 到 60%，当具有挑战性的问题占主导地位时，对模型行为进行压力测试。对于每个混合比，我们测量准确性（Pass@1）和计算成本（每个问题的平均标记），揭示了随着问题难度的变化，每种方法如何进行性能-效率权衡。图 3 中曲线上的每个点都代表不同的 MATH/AIME 混合物，理想情况下，模型可以保持高精度，同时根据问题分布调整其标记的使用。

自适应方法在所有分布中都表现出色。图 3 显示了不同方法的明显不同策略。在逐渐转移场景（左面板）中，ALP 表现出了显著的一致性——即使 AIME 内容增加到 12%，也能保持 75% 以上的准确率，同时保持令牌的使用与难度成正比。曲线的中等斜率表明 ALP 成功识别了哪些问题需要扩展推理并相应地分配标记。相比之下，无论问题混合如何，L1-Exact 都保持恒定的令牌使用量在 3000 左右，在纯 MATH 集上实现了合理的准确性，但随着 AIME 含量的增加而显着降低。这种僵化的方法将计算浪费在简单的问题上，而可能使困难的问题资源不足。极端变化情景（图 3 右图）为每种方法的适应性提供了更生动的说明。当 60% 的问题是 AIME 级别的问题时，性能差异就会变得很明显。ALP 的准确率从 0.89 降低到 0.52，同时将平均标记从大约 500 增加到 2200——这是对难度增加的有节制的反应。L1-Max 在其预算限制范围内显示出有限的适应性，而 R1-Alpha 和 ThinkPrune 等方法实现了中等效率，但在极端条件下牺牲了太多的准确性。值得注意的是，原始的 DeepScaleR 模型尽管使用了最多的代币，但在困难的混合物上未能与 ALP 的性能相匹配，这证实了没有自适应分配的原始计算会产生递减的收益。

这些实验表明，ALP 会自动扩展其推理以满足问题要求。随着语言模型部署在各种不可预测的真实环境中，手动配置是不切实际的，固定策略不可避免地会失败，因此此功能变得越来越有价值。

请参阅标题

图 3：不同问题分布下的性能-效率权衡（推理预算 4096）。每条曲线都显示了 MATH/AIME 混合变化时的模型行为。（左）N=500，AIME 含量为 0-12%（典型部署）。（右）N=100，AIME 含量为 0-60%（压力测试）。ALP 通过自适应令牌分配在所有发行版中保持强劲的性能。

5.4模型如何内化问题难度

虽然前面的部分表明 ALP 使计算适应问题难度，但一个关键问题仍然存在：该模型是否将看不见的数学问题的问题难度内化？图 4 揭示了模型通过其求解率来开发内部难度表示 — 它们在多次尝试中成功解决每个问题的频率可以作为感知难度的代理。

ALP 跨数据集开发准确的难度校准。我们将代币分配分析为难度的函数，定义为 1 减去经验求解率（使用 AIME 的 64 次推出、MATH-500 和 OlympiadBench 的 16 次推出计算）。值越高，表示模型发现的问题更具挑战性。在所有三个数据集中，ALP 显示出一致的模式：令牌使用量随难度单调增加。在 MATH-500 中，ALP 对于最简单的问题（0.0-0.2 难度）使用大约 500 个令牌，但对于最难的问题（0.8-1.0 难度），ALP 会扩展到近 3000 个令牌，即增加 6×。这种模式在 OlympiadBench 和 AIME 上成立，尽管绝对代币数量更高，反映了这些数据集更大的固有难度。重要的是，ALP 的缩放是平滑且成比例的，这表明它已经学会了细微的难度评估，而不是二元的简单/困难分类。

替代方法显示适应效率低下或不存在。相比之下，其他方法表现出有问题的模式。无论所有数据集的难度如何，L1-Exact 都保持几乎恒定的令牌使用量（大约 2900-3000），这证实了它无法在固定长度的约束下开发自适应策略。更令人惊讶的是，L1-Max 在某些数据集上显示倒 U 形，在最困难的问题上使用的标记更少，而这正是更多计算最有价值的时候。DeepScaleR 统一使用过多的词元，而 R1-Alpha 和 ThinkPrune 显示出一些适应性，但动态范围比 ALP 小。这些模式表明，通过在 ALP 中实现的难度感知目标进行显式自适应训练对于模型开发转化为有效计算分配的内部校准是必要的。

图 4：标记分配揭示了模型如何在内部感知问题难度（推理预算 4096）。三个数据集中的平均使用标记与难度（1 - 解决率）。

5.5模型和超参数敏感度

	Pass@1			代长
方法	数学 500	AIME （24&25）	奥运会	数学 500	AIME （24&25）	奥运会
DeepScaleR-1.5B 系列
原始模型	0.81	0.22	0.47	2326	3906	3309
ALP-8K （beta=1e-7）	0.8	0.24	0.51	646	2254	2107
R1-蒸馏-Qwen-1.5B
原始模型	0.72	0.12	0.36	2804	4007	3606
ALP-8K，β=1⁢e−7	0.81	0.252	0.51	862	3331	2107
ALP-4K，β=1⁢e−7	0.79	0.25	0.51	679	2740	1631
ALP-4K，β=1⁢e−8	0.78	0.21	0.49	1063	2993	2070

表 1：ALP 超参数的性能和令牌使用情况。Pass@1估计为每个问题 64 个样本，给定最大 4096 个标记。ALP-4k 和 -8K 对应于训练阶段的 4096 和 8192 上下文窗口。β是 ALP 的权重。

为了评估 ALP 的稳健性和敏感性，我们使用相同的训练设置（100 个梯度步骤，批量大小 512，学习率）对两个 1.5 B 模型——DeepScaleR 和 R1-Distill-Qwen——进行了实验1×10−6,K=16rollouts per prompt）的 rollouts 的 Present。首先，具有一个大的 8 K 令牌上下文窗口和一个惩罚权重（一个确定 pass@1 速率和令牌使用之间权衡的关键超参数）-β=10−7，尽管 DeepScaleR 在零点设置中具有大约 10% 的精度优势，但两种型号在 MATH-500、OlympiadBench 和 AIME 上都实现了相当的精度（表 1）。在 ALP 下，R1-Distill-Qwen 在最难的 AIME 示例上消耗的令牌略多（在 MATH 上消耗的令牌略多），而在 OlympiadBench 上则与性能相同。

请参阅标题

图 5：MATH-500 难度级别的代币使用情况。

接下来，保持模型和上下文大小不变，我们扫除β多{10−7,10−8}.较大的罚款（β=10−7）会更快地减少平均 Token 使用量，但只会导致 pass@1 的适度下降：β=10−8run 在 MATH 和 AIME 上使用了更多的代币，但表现略逊一筹。最后，将上下文窗口从 8 K 减少到 4 K 标记会进一步压缩推理轨迹：两种基本模型都会产生更短、更高效的解决方案，而准确性损失可以忽略不计。在图 5 中观察到的最明显的 chante 是表示验证/自我纠正的标记明显变得不那么频繁，因为我们看到 “wait” 标记的频率减少了 2 倍。这与我们对 ALP 显着减少令牌使用的观察一致，因为自我验证会导致模型完全放弃当前方向，重新开始或回溯。我们观察到其他关键推理标记的细微差异，但其他领域没有明显的下降表明，尽管进行了积极的修剪，推理的质量可能仍然保持不变。

5.6长度减少如何改变推理行为

虽然前面的部分证明了 ALP 有效地减少了令牌的使用，但一个关键问题仍然存在：这种压缩如何影响模型的推理过程？模型是否只是简单地产生相同推理的更简洁版本，或者它们是否从根本上改变了它们解决问题的策略？为了解决这个问题，我们通过系统的关键词和模式分析来分析基础模型和 ALP 训练模型之间的特定推理行为如何变化。

我们通过将原始 DeepScaleR-1.5B 模型的响应与 ALP 训练的变体进行比较，分析了所有三个评估数据集（MATH-500、OlympiadBench 和 AIME，共 22624 个解决方案）的推理行为。对于每个问题，我们提取并计算了代表数学推理不同方面的特定关键词模式：

•

重复：重复短语（5+ 个单词）、计算或表明冗余处理的问题
•

问题设置：诸如“鉴于”、“我们有”、“问题陈述”等关键字 - 表示对问题的初步理解
•

探索：诸如“如果”、“假设”、“让我们尝试”等术语 - 建议假设检验
•

验证：“check”、“verify”、“confirm”等短语 - 显示答案验证
•

结论：包含“因此”、“因此”、“最终答案”的词语——标记解的完成
•

回溯：“wait”、“actually”、“oh no”等指标——揭示自我纠正
•

规划：“first”、“then”、“next”等术语 - 演示结构化方法

用于标识每种行为的完整关键字集在 Section A.2 中。我们计算了 500 个随机抽样问题中这些模式的平均出现次数，每个问题推出 5 次，提供 2,500 个响应对进行分析。

推理阶段的选择性压缩。图 6 揭示了 ALP 如何选择性地压缩推理的不同方面。最显着的减少发生在重复次数上，平均从 269.3 个实例下降到 125.9 个实例（减少 52%），这证实了 ALP 有效地消除了冗余处理。探索行为显示第二大绝对减少（82.9 到 43.2），这表明 ALP 学会了追求更少的死胡同解决方案路径。有趣的是，压缩在所有推理阶段并不统一。虽然问题设置（17.1 到 7.9）和验证（7.1 到 2.4）显示大幅减少，但规划行为相对保留（24 到 10.8，保持原始频率的 46%）。这表明 ALP 优先考虑维护结构化的问题解决方法，同时消除探索性游荡和过度验证。几乎完全消除回溯（34.9 到 13.3）特别值得注意，这表明 ALP 训练的模型尝试回溯的频率较低。结论陈述显示显着减少（36.6 至 17），这可能是回溯减少的副作用。这些行为变化表明，ALP 不仅会产生相同推理的简短版本，而且还改变了模型处理问题的方式。

请参阅标题

图 6：推理行为变化揭示了选择性压缩策略。比较所有评估数据集中的基本 DeepScaleR-1.5B（蓝色）和 ALP 训练模型（橙色）的每个响应的平均关键字出现次数。ALP 和基本模型之间的平均长度比为 49%。

6讨论

我们介绍了自适应长度惩罚（ALP），这是一种解决推理模型中计算效率基本挑战的原则性方法。通过解决率利用在线难度估计，ALP 使模型能够内化对问题复杂性的理解，而无需手动配置。我们的分析表明，ALP 成功地教授了这种区分，模型学习压缩冗余的探索和重复验证，同时保持结构化的问题解决方法。这种选择性压缩反映了专家的推理模式：对熟悉的问题直接而自信，对具有挑战性的问题进行彻底的思考。重要的是，ALP 的学习适应策略在从标准课程到比赛级挑战的不同问题分布中被证明是稳健的。这种稳健性表明，模型开发真正的难度校准，而不是记住特定的模式，这使得 ALP 可用于问题难度不可预测且手动配置不可行的实际部署。

7局限性

虽然 ALP 显示出明显的效率提升，但有几个局限性限制了我们的结论。最关键的是，我们的评估只集中在数学推理上。ALP 的好处是否延伸到其他领域尚不清楚。此外，ALP 优化了现有能力的分配，而不是增强基本推理能力。模型会成为更有效的推理器，但不一定会成为更好的推理器。这就提出了一个问题，即效率和能力改进是内在耦合的，还是可以独立进行的。

查看全文

http://www.dtcms.com/a/236852.html