【AI论文】超越80/20规则:高熵少数令牌驱动LLM推理的有效强化学习
摘要:具有可验证奖励的强化学习(RLVR)已经成为一种增强大型语言模型(LLM)推理能力的强大方法,但其机制尚未得到很好的理解。 在这项工作中,我们通过标记熵模式的新视角对RLVR进行了开创性的探索,全面分析了不同标记如何影响推理性能。 通过检查思想链(CoT)推理中的标记熵模式,我们观察到只有一小部分标记表现出高熵,这些标记充当关键分叉,引导模型朝向不同的推理路径。 此外,研究RLVR训练过程中熵模式的演变表明,RLVR在很大程度上遵循基础模型的熵模式,主要是调整高熵标记的熵。 这些发现强调了高熵标记(即分叉标记)对RLVR的重要性。 我们最终通过将策略梯度更新限制在分叉令牌上来改进RLVR,并发现了一个甚至超越80/20规则的发现:仅使用20%的令牌,同时保持与Qwen3-8B基础模型上的全梯度更新相当的性能,并显著优于Qwen3-32B(+11.04 AIME'25和+7.71 AIME'24)和Qwen3-14B(+4.79 AIME'25和+5.21 AIME'24)基础模型上的全梯度更新,突显了强大的扩展趋势。 相比之下,仅在80%最低熵标记上进行训练会导致性能显著下降。 这些发现表明,RLVR的效能主要来自优化决定推理方向的高熵表征。 总的来说,我们的研究结果强调了通过标记熵的角度理解RLVR的潜力,并通过利用高熵的少数标记来优化RLVR,以进一步提高LLM推理。Huggingface链接:Paper page,论文链接:2506.01939
研究背景和目的
研究背景
近年来,大型语言模型(LLMs)在数学和编程等领域的推理能力取得了显著进步,这主要得益于测试时扩展方法(test-time scaling methodologies)的应用,如OpenAI的o1、Anthropic的Claude3.7、DeepSeek的R1、Kimi的K1.5以及阿里巴巴的Qwen3等模型。在这些进步中,具有可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)成为了一种关键技术,它通过将模型的输出与自动化正确性验证相结合,优化模型的推理能力。
尽管RLVR在提升LLMs推理能力方面取得了显著成效,但其背后的机制尚未得到充分理解。现有的RLVR实现通常直接对所有标记进行训练,而忽视了不同标记在推理过程中所扮演的不同角色。这种做法可能导致未能充分利用那些对推理方向起关键作用的标记,从而限制了性能的进一步提升。
研究目的
本研究旨在通过标记熵模式的新视角,深入探索RLVR的内在机制,并特别关注高熵少数标记在提升LLMs推理能力方面的作用。具体目标包括:
- 分析标记熵模式:通过检查思想链(Chain-of-Thought, CoT)推理中的标记熵模式,识别出那些对推理方向起关键作用的高熵标记。
- 理解RLVR训练过程中的熵模式演变:研究RLVR训练过程中标记熵模式的变化,特别是高熵标记和低熵标记在训练中的不同表现。
- 优化RLVR算法:基于高熵标记的重要性,提出一种新的RLVR算法,仅对高熵标记进行策略梯度更新,以提升推理性能。
- 验证算法效果:在多个基准测试集上验证新算法的有效性,并探讨其扩展性。
研究方法
标记熵计算
标记熵(Token Entropy)用于衡量模型在生成特定标记时的不确定性。对于标记t,其熵Ht定义为:
Ht:=−j=1∑Vpt,jlogpt,j
其中,pt=πθ(⋅∣q,o<t)=Softmax(zt/T),πθ 是由参数θ参数化的LLM,q是输入查询,o<t 是先前生成的标记序列,V是词汇表大小,zt 是时间步t的预softmax logits,T是解码温度。
RLVR算法
本研究采用动态采样策略优化(Dynamic Sampling Policy Optimization, DAPO)作为基准RLVR算法。DAPO通过移除价值网络,引入clip-higher机制,并结合动态采样、标记级策略梯度损失和超长奖励塑造,实现了高效的RLVR训练。
实验设置
- 数据集:使用DAPO-Math-17K数据集进行训练,并在多个数学推理基准测试集(如AIME'24、AIME'25、AMC'23、MATH500、Minerva和OlympiadBench)上进行评估。
- 模型:选择Qwen3-32B、Qwen3-14B和Qwen3-8B作为基础模型进行实验。
- 训练细节:采用与DAPO相同的超参数设置,包括clip-higher的ϵhigh=0.28和ϵlow=0.2,最大响应长度为20480,缓存长度为4096,训练批次大小为512,小批次大小为32,学习率为10^-6。^[14]^
- 评估方法:对每个问题生成16个独立响应,报告平均准确率和平均响应长度。
改进的RLVR算法
基于高熵标记的重要性,本研究提出一种新的RLVR算法,仅对高熵标记进行策略梯度更新。具体地,对于每个批次B,计算最大目标函数为:
JBHighEnt(θ)=EB∼D,(q,a)∼B,{oi}Gi=1∼πθold(⋅∣q)∑i=1G∣oi∣1i=1∑Gt=1∑∣oi∣I[Hit≥τBρ]⋅ρ⋅min(rit(θ)A^it,clip(rit(θ),1−ϵlow,1+ϵhigh)A^it)
其中,I[⋅] 是指示函数,ρ 是预定义的比例,指定每个批次中选择的高熵标记的比例,τBρ 是批次B中对应的熵阈值。
研究结果
高熵标记的重要性
通过分析CoT推理中的标记熵模式,研究发现只有一小部分标记表现出高熵,这些标记充当关键分叉,引导模型朝向不同的推理路径。进一步的研究表明,RLVR训练过程中,模型在很大程度上保留了基础模型的熵模式,主要是调整高熵标记的熵。
改进RLVR算法的效果
实验结果显示,仅对高熵标记进行策略梯度更新的新算法在多个基准测试集上取得了显著的性能提升。具体而言,在Qwen3-32B模型上,新算法在AIME'24和AIME'25上的准确率分别提升了7.71%和11.04%;在Qwen3-14B模型上,分别提升了5.21%和4.79%。相比之下,仅在80%最低熵标记上进行训练会导致性能显著下降。
扩展性分析
研究还发现,随着模型规模的增大,新算法的性能提升更加显著。这表明,利用高熵少数标记优化RLVR的方法具有良好的扩展性。
研究局限
尽管本研究取得了显著成果,但仍存在一些局限性:
- 模型范围有限:实验主要在Qwen系列模型上进行,未来需要扩展到更多不同类型的模型,以验证算法的普适性。
- 数据集范围有限:目前的数据集主要集中在数学领域,未来需要探索更多领域,如编程和复杂任务,以验证算法的广泛适用性。
- 实验设置特定:研究结果基于特定的实验设置,未来需要探讨不同RLVR场景下的有效比例和算法表现。
未来研究方向
基于本研究的发现和局限,未来可以从以下几个方面进行深入研究:
- 开发新的RLVR算法:进一步探索如何更好地利用高熵少数标记,开发更高效的RLVR算法。
- 扩展应用领域:将新算法应用到更多领域,如编程、自然语言处理等,验证其在不同任务中的有效性。
- 结合其他技术:探索如何将高熵标记优化方法与其他技术(如监督微调、蒸馏、推理和多模态训练)相结合,以进一步提升LLMs的推理能力。
- 理论分析:从理论上深入分析高熵标记在RLVR中的作用机制,为算法设计提供更坚实的理论基础。
结论
本研究通过标记熵模式的新视角,深入探索了RLVR在提升LLMs推理能力方面的机制。通过识别高熵少数标记,并仅对这些标记进行策略梯度更新,本研究成功提升了RLVR的性能,并发现了一个超越80/20规则的现象:仅使用20%的标记即可实现与全梯度更新相当甚至更优的性能。这些发现不仅增进了对RLVR机制的理解,还为未来优化LLMs推理能力提供了新的思路和方法。