当前位置: 首页 > news >正文

RL推理的尽头,是熵坍缩?统一SFT与强化学习的新视角

在 LLM 的预训练及微调阶段,scaling law 告诉了我们所能达到效果范围,其中蕴含了深刻的信息论原理,感兴趣的可以回看笔者之前的文章

https://zhuanlan.zhihu.com/p/687278237

在此原理的支配下,开发者则可以将精力主要关注于三个方面:清洗数据、增大模型、提高效率。那么对于主要基于 RL 的推理模型而言,是否也存在这样一个指导原则呢?本篇将以推理模型的能力边界为主题,主要围绕以下问题展开:

  • 基于 RL 的推理模型的表现与基座模型的关系

  • RL 中的“熵坍缩”问题:原因、实质及解决方法

  • 推理模型是否存在“能力边界”,以及如何拓展“能力边界”

一、RL 效果与基座模型的关系

随着 RL 热度的提高,近期众多工作研究了基座模型与 RL 训练效果的关系,相当多的工作提出共同的观点:模型的能力由预训练决定,RL 仅仅只是其中某些行为的“放大器”。那么,如果去认识和理解这一现象呢?如果该观点成立,其更深层次的原理是什么呢?

2.1 观察:基座模型决定论

关于基座模型与 RL 的关系首先来自基于实验的观察,为了理解这一过程,我们不妨在此列举部分工作的实验结果及其核心观点。

  • DeepSeek R1

DeepSeek R1 是比较早讨论到基座模型与 RL 的关系的文章,其中认为基座模型与 RL 对模型的边界能力同等重要,即“要超越智能的边界,可能仍需要更强大的基础模型和更大规模的强化学习”。

当然以上观点还是基于少量实验数据提出的,但仍然可看作类似观点之滥觞。

  • Echo Chamber

该研究者从头开始训练不同规模(150M和1B参数)的解码器语言模型,并使用完全开放的数据集混合进行预训练。使用PPO(Proximal Policy Optimization)、GRPO(Group Relative Policy Optimization)和Expert Iteration等RL算法对预训练模型进行微调。

通过大量实验,观察到如下表现:

  1. RL微调的收敛性:RL微调使模型输出迅速收敛到预训练数据中的一种特定分布格式,抑制其他分布。例如,模型可能迅速偏好TinyGSM风格的输出,即使这种格式在初始化时并非最常见。

  2. 性能提升:RL微调显著提高了模型在GSM8K测试集上的pass@1准确率,但降低了pass@64准确率,表明生成多样性减少。

  3. 规模依赖性:不同规模的模型在相同数据混合上训练后,会收敛到不同的输出分布。较小的模型倾向于输出更简单、类似代码的格式,而较大的模型倾向于自然语言输出。

  4. 正向迁移:在GSM8K上进行RL微调后,模型在未见过的评估数据集(如MATH-500和AIME)上也表现出性能提升,表明某些推理能力可以在任务间泛化。

  5. 由此可以得到以下RL 与基座模型关系的结论:

  6. RL微调的放大效应:RL微调不仅放大了预训练数据中的特定模式,还可能抑制其他模式,这取决于预训练数据的组成、RL算法的选择、超参数设置和模型规模。

  7. 模型规模的影响:模型规模对RL微调的效果有显著影响。较大模型在自然语言输出上表现更好,而较小模型可能更依赖代码风格的输出。

  8. 正向迁移的证据:RL微调不仅改善了模型在特定任务上的表现,还提升了模型在更广泛数学任务上的推理能力。

总结一下,本文从 RLVR 训练过程中的熵缩现象出发,深入讨论了其发生原因及干预手段,从此也可以看出 RLVR 当前已进入深水区,需要非常细节的研究和实践才能有所提升。这个过程,既是理解 RL 和 LLM 的过程,也是拓展其能力边界的过程。

http://www.dtcms.com/a/327665.html

相关文章:

  • 零基础学Java第七讲---调试(IDEA)
  • 面试经典150题[001]:合并两个有序数组(LeetCode 88)
  • 【代码随想录day 17】 力扣 98.验证二叉搜索树
  • iis无法访问文件
  • NTP常见日志分析
  • 每日五个pyecharts可视化图表-line:从入门到精通 (4)
  • 多轮问答与指代消解
  • 测试匠谈 | AI语音合成之大模型性能优化实践
  • @JsonAnyGetter 动态表格渲染的“神”
  • 「机器学习」:金融风控贷款违约预测,天池比赛解决详细思路
  • Redis面试精讲 Day 19:Redis缓存设计模式与策略
  • 剑指offer第2版——面试题3:数组中重复的数字
  • RabbitMQ-知识技能图谱(总结篇)
  • 【时时三省】(C语言基础)建立动态链表
  • LeetCode189~191、198~214题解
  • 探秘酵母单杂交技术:解锁基因调控的密码
  • WEB虚拟主机3种部署方式全解析
  • 【Java Web 快速入门】九、事务管理
  • 【数据分享】2018-2024年中国10米分辨率春小麦和冬小麦分布栅格数据
  • Unity:GUI笔记(一)——文本、按钮、多选框和单选框、输入框和拖动条、图片绘制和框绘制
  • vue3大事件
  • 4.运算符
  • TF-IDF——红楼梦案例
  • IIS Express中可以同时加载并使用.net4.0和.NET 2.0的 DLL
  • Linux服务:Apache 虚拟主机配置指南:多站点部署三种方式详解
  • 【DL】浅层神经网络
  • 一键设置 NTP 时区的脚本(亲测,适用于部署 K8S 的前置环境)
  • 测试环境下因网络环境变化导致集群无法正常使用解决办法
  • Java调用Vue前端页面生成PDF文件
  • 【K8s】K8s控制器——Deamonset、Statefulset、Job与CronJob