英伟达:拓展LLM训练过程
📖标题:Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training NVIDIA
🌐来源:arXiv, 2507.12507
🌟摘要
OpenAI 的 O1 和 DeepSeek-R1 等以推理为中心的语言模型的最新进展表明,通过思维链推理和迭代探索缩放测试时间计算可以在数学和代码生成等复杂任务上产生实质性的改进。这些突破是由大规模强化学习 (RL) 驱动的,特别是当与提供客观和接地监督的可验证奖励信号相结合时。在本报告中,我们研究了长时间强化学习对跨不同推理域的小型语言模型的影响。我们的工作确定了有效训练的几个关键要素,包括使用可验证的奖励任务、组相对策略优化 (GRPO) 的增强以及提高训练稳定性和泛化的实用技术。我们引入了受控 KL 正则化、裁剪比率和周期性参考策略重置为解锁长期性能提升的关键组成部分。我们的模型实现了对强基线的显着改进,包括数学 +14.7%、编码 +13.9% 和逻辑拼图任务的 +54.8%。为了便于继续研究,我们公开发布我们的模型。
🛎️文章简介
🔸研究问题:如何通过延长训练来提高大语言模型(LLM)在不同推理任务中的表现和稳定性的问题。
🔸主要贡献:论文提出了一种新的训练框架,通过多样化的任务和策略,显著提高了LLM在复杂推理任务中的性能。
📝重点思路
🔸采用多样化的训练数据,涵盖数学问题解决、代码生成、逻辑难题和指令跟随等多个领域,提供可验证的奖励信号。
🔸利用公开的强化学习数据集进行训练,设计了改进的代码执行环境,提供连续的奖励反馈。
🔸引入了参考策略重置的技术,在训练过程中定期重置策略以避免过早收敛。
🔸采用了增强的Group Relative Policy Optimization (GRPO)算法,结合了去耦合裁剪和动态采样策略,提升了策略学习效率。
🔸实施KL正则化以维持训练的稳定性,避免熵崩溃,并在训练过程中进行适当的超参数调整。
🔎分析总结
🔸通过多样化的任务设置,模型的推理能力显著提升,在数学、编码、逻辑难题和STEM推理等领域均获得了显著的性能改进。
🔸引入的参考策略重置技术有效地恢复了训练动态,防止了模型在训练过程中的停滞。
🔸训练过程中采用的KL正则化策略和去耦合裁剪方法共同改善了训练的稳定性,帮助模型保持了较高的多样性和探索能力。
🔸实验结果表明,模型在各项任务中均优于现有基线,验证了提出的方法在推理能力和学习表现上的有效性。
💡个人观点
论文的创新点在于定期重置策略和增强GRPO,解决了传统方法中训练稳定性不足和探索性不足的问题。