RL推理的尽头,是熵坍缩?统一SFT与强化学习的新视角
在 LLM 的预训练及微调阶段,scaling law 告诉了我们所能达到效果范围,其中蕴含了深刻的信息论原理,感兴趣的可以回看笔者之前的文章
https://zhuanlan.zhihu.com/p/687278237
在此原理的支配下,开发者则可以将精力主要关注于三个方面:清洗数据、增大模型、提高效率。那么对于主要基于 RL 的推理模型而言,是否也存在这样一个指导原则呢?本篇将以推理模型的能力边界为主题,主要围绕以下问题展开:
基于 RL 的推理模型的表现与基座模型的关系
RL 中的“熵坍缩”问题:原因、实质及解决方法
推理模型是否存在“能力边界”,以及如何拓展“能力边界”
一、RL 效果与基座模型的关系
随着 RL 热度的提高,近期众多工作研究了基座模型与 RL 训练效果的关系,相当多的工作提出共同的观点:模型的能力由预训练决定,RL 仅仅只是其中某些行为的“放大器”。那么,如果去认识和理解这一现象呢?如果该观点成立,其更深层次的原理是什么呢?
2.1 观察:基座模型决定论
关于基座模型与 RL 的关系首先来自基于实验的观察,为了理解这一过程,我们不妨在此列举部分工作的实验结果及其核心观点。
DeepSeek R1
DeepSeek R1 是比较早讨论到基座模型与 RL 的关系的文章,其中认为基座模型与 RL 对模型的边界能力同等重要,即“要超越智能的边界,可能仍需要更强大的基础模型和更大规模的强化学习”。
当然以上观点还是基于少量实验数据提出的,但仍然可看作类似观点之滥觞。
Echo Chamber
该研究者从头开始训练不同规模(150M和1B参数)的解码器语言模型,并使用完全开放的数据集混合进行预训练。使用PPO(Proximal Policy Optimization)、GRPO(Group Relative Policy Optimization)和Expert Iteration等RL算法对预训练模型进行微调。
通过大量实验,观察到如下表现:
RL微调的收敛性:RL微调使模型输出迅速收敛到预训练数据中的一种特定分布格式,抑制其他分布。例如,模型可能迅速偏好TinyGSM风格的输出,即使这种格式在初始化时并非最常见。
性能提升:RL微调显著提高了模型在GSM8K测试集上的pass@1准确率,但降低了pass@64准确率,表明生成多样性减少。
规模依赖性:不同规模的模型在相同数据混合上训练后,会收敛到不同的输出分布。较小的模型倾向于输出更简单、类似代码的格式,而较大的模型倾向于自然语言输出。
正向迁移:在GSM8K上进行RL微调后,模型在未见过的评估数据集(如MATH-500和AIME)上也表现出性能提升,表明某些推理能力可以在任务间泛化。
由此可以得到以下RL 与基座模型关系的结论:
RL微调的放大效应:RL微调不仅放大了预训练数据中的特定模式,还可能抑制其他模式,这取决于预训练数据的组成、RL算法的选择、超参数设置和模型规模。
模型规模的影响:模型规模对RL微调的效果有显著影响。较大模型在自然语言输出上表现更好,而较小模型可能更依赖代码风格的输出。
正向迁移的证据:RL微调不仅改善了模型在特定任务上的表现,还提升了模型在更广泛数学任务上的推理能力。
总结一下,本文从 RLVR 训练过程中的熵缩现象出发,深入讨论了其发生原因及干预手段,从此也可以看出 RLVR 当前已进入深水区,需要非常细节的研究和实践才能有所提升。这个过程,既是理解 RL 和 LLM 的过程,也是拓展其能力边界的过程。