当前位置：首页 > news >正文

大语言模型强化学习中的熵崩溃现象：机制、影响与解决方案

news 2025/9/13 13:17:13

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

1 熵与熵崩溃的基本概念

熵（Entropy）最初是热力学中的一个概念，用于描述系统的无序程度或混乱度。在信息论中，香农将其引入并发展为"信息熵"，用于衡量信息的不确定性或随机性。在强化学习领域，策略熵（Policy Entropy）则代表了智能体选择动作时的不确定性程度——高熵值意味着智能体更倾向于探索各种可能的动作，而低熵值则表明智能体更倾向于利用当前已知的最优动作。

熵崩溃（Entropy Collapse）（常称为策略熵退化或熵消失）是指强化学习过程中，策略熵急剧下降至接近零的现象，这导致智能体动作分布高度集中失去探索能力，陷入"过度自信"的局部最优策略，从而停止尝试新的解决方案。这种现象在大语言模型（LLM）的RLHF训练中尤为常见，且通常伴随着模型性能的饱和，从而限制其进一步提升的可能性。

🌰 一个简单比喻：想象一下教一个孩子学骑自行车。刚开始时，孩子会尝试各种方式保持平衡——左倾、右倾、加速、减速，这种"探索"多种可能性的行为至关重要。但随着技能提升，孩子会逐渐形成固定的骑行方式，减少"尝试新动作"的概率。如果孩子变得过于保守，完全拒绝尝试任何新技巧，哪怕新技巧可能更好，这就类似于"熵崩溃"现象。

在复杂系统理论中，熵崩溃的概念与系统脆性密切相关。研究表明，复杂系统的崩溃往往是由于系统内部熵值在外界干扰过程中不断增加，而且无法从周围环境得到负熵流的补充，当达到临界熵值时就会导致崩溃。这类似于大语言模型在强化学习中无法获得新的探索能量而陷入熵崩溃的状态。

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

往期文章推荐:

20.蚁群算法详解：从蚂蚁觅食到优化利器
19.粒子群优化（PSO）算法详解：从鸟群行为到强大优化工具
18.NSGA-II多目标优化算法：原理、应用与实现
17.SPEA2多目标进化算法：理论与应用全解析
16.NSGA系列多目标优化算法：从理论到实践
15.Adam优化算法：深度学习的自适应动量估计方法
14.VeRL：强化学习与大模型训练的高效融合框架
13.BBEH：大模型高阶推理能力的“超难”试金石
12.MGSM：大模型多语言数学推理的“试金石”
11.灾难性遗忘：神经网络持续学习的核心挑战与解决方案
10.内存墙：计算性能的隐形枷锁与突破之路
9.阿喀琉斯之踵：从神话传说到现代隐喻的致命弱点
8.DS-1000：数据科学代码生成的可靠基准测试
7.MultiPL-E: 多语言代码生成的革命性基准测试框架
6.梯度爆炸问题：深度学习中的「链式核弹」与拆弹指南
5.IBM穿孔卡片：现代计算技术的奠基之作
4.EDVAC：现代计算机体系的奠基之作
3.机电装置：从基础原理到前沿应用的全方位解析
2.梯度消失问题：深度学习中的「记忆衰退」困境与解决方案
1.WMT2014：机器翻译领域的“奥林匹克盛会“

2 大模型中的熵崩溃问题

2.1 熵崩溃的具体表现

在大语言模型（如ChatGPT或Qwen等）的强化学习训练过程中，研究团队观察到了一个普遍现象：模型的策略熵会迅速崩塌（快速下降至接近零），而这与模型性能的饱和息息相关。具体实验数据表明：

在训练早期（通常是前200步，约占总训练步数的1/12），模型的策略熵下降了73%，与此同时模型性能提升了76%。
到前800步（约占总训练的1/3），熵消耗达到94%，性能提升达到93%。
这意味着剩下2/3的训练步骤只带来了约**7%**的性能提升，效率极低。

这种熵崩溃现象在不同规模的大语言模型中都存在，包括从0.5B到32B参数规模的模型，以及不同模型家族（Qwen2.5、Mistral、LLaMA）和不同任务（数学和编程）。这表明熵崩溃是大语言模型强化学习中的一个普遍性问题，而非特定模型或任务的特性。

2.2 熵与性能的数学关系

研究团队发现了一个令人惊讶的数学关系：验证性能（R）和策略熵（H）之间存在一个精确的指数关系：R = -a·exp(H) + b。其中a和b是拟合系数，这个简单的指数函数几乎完美地描述了所有实验结果。

公式含义：

它表明模型性能是通过"交易"熵获得的，类似于一种"资源消耗"过程
模型性能存在理论上限（当H=0时，R=-a+b），且这个上限可以预测
如果不打破这种"熵瓶颈"，仅仅增加更多计算资源对强化学习的回报将非常有限

这个发现类似于机器学习中的"缩放法则"（Scaling Laws），让研究者能在训练早期就预测模型的最终性能。例如，研究者们仅使用前36步（约15%）的训练数据就能准确预测Qwen2.5系列模型在数学和编程任务上的最终性能，平均误差仅为0.9%和1.2%。

2.3 熵崩溃的内在机制

为了解熵崩塌问题，研究团队从理论和实验两个角度分析了熵的动态变化。对于像大语言模型这样的softmax策略，他们证明了连续两步之间的熵变化主要由动作概率（log-probability）和对应logit变化之间的协方差决定。这个协方差项在策略梯度（Policy Gradient）和自然策略梯度（Natural Policy Gradient）等算法中，与动作优势（advantage）成正比。

用日常语言解释，这意味着：

当模型认为某个动作既有高概率又有高回报（高优势）时，它会更加确信这个动作是正确的，因此降低策略熵；
相反，如果一个罕见动作获得了高回报，模型会增加这个动作的概率，反而提高了策略熵。

研究团队通过实验验证了这一理论结论。他们观察到，在训练早期，模型在训练数据上表现出高协方差，说明模型的置信度和实际表现是匹配的，这让模型能够"安全地"强化那些高置信度的决策，进一步降低熵。随着训练进行，协方差逐渐下降但仍保持为正，继续拉低策略熵。

通过分析不同难度的训练样本，研究者还发现，对于简单问题（模型回答正确率高的问题），协方差较大；而对于困难问题，协方差较小。这符合直觉：当模型擅长解决某类问题时，它对自己的判断更有信心，而面对困难问题时则更加谨慎。

3 熵崩溃的解决方法和效果

3.1 传统方法的局限性

在解决熵崩塌问题之前，研究团队首先尝试了传统强化学习中常用的熵控制方法，看它们是否适用于大语言模型。

在传统强化学习中，研究者通常会在损失函数中添加熵正则化项（entropy regularization）或KL惩罚项（KL penalty）来控制策略熵。熵正则化通过奖励高熵（即多样化的行为）来鼓励模型探索，而KL惩罚则通过限制策略与参考策略的偏离程度来防止过度更新。

然而，研究者发现这些方法在大语言模型上表现不佳。添加熵损失项（Lent = L - α·H(πθ)）时，调节系数α非常敏感：较小的系数（如0.0001或0.001）几乎没有影响，而较大的系数（如0.01）则会导致熵爆炸，模型变得过度随机。虽然设置α=0.005能够稳定熵值，但并没有带来性能提升。

同样，添加KL惩罚项也面临类似问题。虽然可以稳定熵值，但往往会降低模型性能而非提升。这表明，简单套用传统强化学习中的熵控制方法并不适合大语言模型。

这些实验结果解释了为何最近的许多大语言模型强化学习研究并没有包含熵正则化或KL惩罚项。传统方法要么对超参数过度敏感，要么会损害模型性能，这促使研究团队开发更适合大语言模型特点的熵控制方法。

3.2 创新方法：Clip-Cov和KL-Cov

既然传统方法行不通，研究团队基于前述熵动态分析提出了两种新的熵控制方法：Clip-Cov和KL-Cov。这两种方法都着眼于控制高协方差token的更新，以维持适当的策略熵。

研究团队发现，在训练过程中，只有极小部分token（约0.02%）具有极高的协方差（平均值5.654），远超平均水平（0.003）。这些"异常值"对熵崩塌起着决定性作用。控制这些token的更新，就可能有效缓解熵崩塌问题。

3.2.1 Clip-Cov方法

Clip-Cov方法的核心思想是，随机选择一小部分具有高协方差的token，并切断它们的梯度。具体来说，研究者计算每个token的协方差，然后随机选择r·N个协方差在预设范围[ωlow, ωhigh]内的token（r为裁剪比例，N为总token数），将这些token从策略梯度更新中排除。

这就像是告诉模型：“不要过度确信这些看似很确定的判断，保留一些不确定性。”

3.2.2 KL-Cov方法

KL-Cov方法则采取不同策略，它识别协方差最高的一部分token（比例为k），并对这些token应用KL惩罚。这相当于告诉模型："你可以更新这些判断，但不要偏离太远。"KL惩罚的系数β控制惩罚的强度。

3.3 实验效果与性能提升

实验表明，这两种方法都能有效控制策略熵，并带来实质性的性能提升。

表：Clip-Cov和KL-Cov方法在不同模型上的性能提升

模型	任务类型	基线性能	Clip-Cov提升	KL-Cov提升	关键发现
Qwen2.5-7B	数学推理	基准值	+1.8%	+2.0%	困难任务提升更明显
Qwen2.5-32B	数学推理	基准值	+4.5%	+6.4%	参数越多提升越显著
Qwen2.5-32B	AIME24数学题	基准值	-	+15.0%	高难度任务提升显著
Qwen2.5-32B	AIME25数学题	基准值	-	+14.6%	高难度任务提升显著

特别值得注意的是，这些方法在更具挑战性的任务上表现更好。例如，在AIME24和AIME25等困难数学题上，KL-Cov使Qwen2.5-32B模型的性能分别提高了15.0%和14.6%。这表明，当我们解除熵崩塌带来的"探索诅咒"后，大模型能够更充分地发挥其潜力。

研究者还发现，通过调整KL-Cov中的KL系数β或Clip-Cov中的裁剪比例r，可以精确控制策略熵的水平。这为未来的研究提供了一个重要工具，让研究者能够探索不同熵水平对模型性能的影响。

这两种方法实现起来非常简单，只需在现有强化学习算法的基础上添加几行代码。然而，它们对模型性能的影响却相当显著，这体现了"小改动，大影响"的原则。

4 熵崩溃研究的启示与未来方向

4.1 理论意义与实践价值

这项研究为我们理解和改进大语言模型的强化学习过程提供了重要启示：

首先，策略熵的崩塌不仅是一个普遍现象，而且会限制模型性能的提升。研究揭示的R = -a·exp(H) + b关系表明，模型性能和策略熵之间存在可预测的"交易"，而熵耗尽后性能也就达到了天花板。

第二，研究揭示了熵变化的内在机制，即高协方差token主导了熵的下降。这一发现让我们能够设计更有针对性的干预方法，而不是盲目应用传统的熵正则化。

第三，基于协方差的熵控制方法（Clip-Cov和KL-Cov）不仅概念简单，而且实现容易，只需在现有算法上添加几行代码即可。这使得它们易于被广泛采用，对未来大模型强化学习的规模化应用具有重要意义。

4.2 未来研究方向

基于当前研究，未来有几个值得探索的方向：

扩展模型和数据集范围：当前研究主要基于有限的LLM家族和基础模型，以及数学和编程等可验证任务。未来可以扩展到更多模型和任务类型，验证研究结果的普适性。
简化熵管理方法：虽然Clip-Cov和KL-Cov相对简单，但它们的实现仍需要仔细调整超参数。未来研究可以探索更自动化的超参数调整方法，或者设计更通用的熵管理策略。
深入理解熵与性能的关系：为什么策略熵的耗尽是限制性能提升的瓶颈？是否存在最有的策略熵水平以平衡探索和利用？这些问题需要进一步的研究来解答。
结合其他技术提升RL性能：未来研究可以探索将熵管理方法与其他RL技术（如经验回放、目标网络等）相结合，以进一步提升RL在LLMs推理任务中的性能。