当前位置：首页 > news >正文

如何通过RL真正提升大模型的推理能力？NVIDIA提出长期强化学习训练框架ProRL

news 2025/8/27 22:55:18

原文：https://mp.weixin.qq.com/s/QLFKvb8Ol3CX9uWKBXSrow

论文：ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
Abs：https://arxiv.org/abs/2505.24864
权重下载：https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B

最近LLM + RL的研究越来越火，但关于“RL是否真的能提升模型的推理能力”这一问题，社区仍存在不少争议。一些研究指出，RL只是在让模型变得更会“猜答案”，而非真正学会新能力。

我们认为这些质疑可能来自两个“隐藏问题”：

太多研究只在数学领域做实验，而这类任务基础模型早就见过，根本没有探索新能力的空间；
RL训练都太短了——几百步就停止，模型还没开始“发掘潜能”就被叫停了。

因此，我们认为应该在更加多样的任务上做更加长期的强化学习训练。然而，让模型在强化学习中实现长期且稳定的训练并不容易。传统方法常常面临梯度爆炸或训练坍塌等问题。为此，我们将 模型的 entropy（熵） 作为衡量训练健康程度的关键指标。Entropy 反映了模型在探索与利用之间的平衡能力，也代表了模型对问题理解的深度。

训练过程中，我们力求保持 entropy 在一个合理且稳定的区间：过高的 entropy 意味着模型在做出决策时过于随机，缺乏有效判断；过低的 entropy 则表明模型可能陷入某个解法，失去了进一步探索的能力。

通过持续监控并调控 entropy，我们有效促进了 RL 训练的稳定性和推理能力的提升。在此基础上，我们提出了ProRL（Prolonged Reinforcement Learning），一个长期强化学习训练框架，核心包括：

KL控制（保持模型不跑偏）
参考策略重置（防止陷入局部最优）
多样化任务集合（激发模型学习不同推理策略）

我们基于 DeepSeek-Distilled-Qwen-1.5B，训练了一个专注于推理能力的模型 —— Nemotron-Research-Reasoning-Qwen-1.5B，在数学/编程/逻辑题/STEM推理/任务指令理解等多个领域展现出显著提升。

在这里插入图片描述

更关键的是：

我们发现 RL 模型能解出 base model 无论怎么 sampling 都完全答不出的题，甚至做到 pass rate 100%。这不是随机波动，而是新能力的诞生。

我们还用 Creativity Index 量化了“新解法”的创意程度，发现训练越久，模型“跳出预训练语料”的能力越强，推理路径越来越有创造性。

在这里插入图片描述

此外，强化学习的效果与基础模型的初始表现呈负相关关系：初始 pass@k 较低的任务，在推理边界扩展方面的提升最大；而在诸如数学和代码等高表现领域（其创造力指数较低），推理边界的扩展则较为有限。对于改善幅度较小的任务（即图中显示为“Diminished Area”的部分），基础模型通常具有较低的创造力指数，这表明这些任务可能已在预训练数据中得到了充分覆盖，因此在推理边界上的扩展潜力有限。

在这里插入图片描述