清华最新发布114页大型推理模型的强化学习综述
论文集:https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
综述文章:https://arxiv.org/pdf/2509.08827
重点内容:
- 本综述深入探讨了强化学习(RL)在大型语言模型(LLMs)推理能力提升上的最新进展,尤其关注其如何将LLMs转型为能够处理数学和编程等复杂逻辑任务的大型推理模型(LRMs)。
- 以OpenAI o1和DeepSeek-R1为代表的模型,通过可验证奖励强化学习(RLVR)实现了规划、反思和自我纠正等高级推理能力,开辟了超越预训练的新扩展方向。
- 然而,将RL应用于LRMs以实现人工智能(ASI)仍面临计算资源、算法设计、训练数据和基础设施等多方面挑战,本综述旨在全面审视并探索其可扩展性策略。
本文综述了强化学习 (Reinforcement Learning, RL) 在大型语言模型 (Large Language Models, LLMs) 推理能力发展中的最新进展,特别是自 DeepSeek-R1 发布以来,RL 已成为将 LLMs 转化为大型推理模型 (Large Reasoning Models, LRMs) 的基础方法。RL 在解决数学和编程等复杂逻辑任务方面取得了显著成功,例如 OpenAI o1 和 DeepSeek-R1 通过可验证奖励 (verifiable rewards, RLVR) 训练 LLMs,使其能够进行规划、反思和自我纠正等长形式推理。然而,RL 的进一步扩展面临计算资源、算法设计、训练数据和基础设施等方面的挑战。因此,本文旨在全面回顾 RL for LRMs 领域,评估其发展轨迹,并探索提升 RL 可扩展性以实现 Artificial SuperIntelligence (ASI) 的策略。
文章首先介绍了 RL 在 LRMs 背景下的基本定义,将 LLM 组件映射到马尔可夫决策过程 (Markov Decision Process, MDP) 框架:Prompt 对应初始状态,Policy 是语言模型,State 是 Prompt 和已生成序列的组合,Action 是在词汇表中选择的 token,Reward 通常是序列级别的 R(x,y)R(x, y)R(x,y) 或分解为 token 级别 rtr_trt,Return 是累积奖励。RL 的目标是最大化期望奖励 J(θ):=Ex∼D,y∼πθ(x)[R(x,y)]J(\theta) := \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_\theta(x)} [R(x, y)]J(θ):=Ex∼D,y∼πθ(x)[R(x,y)],通常辅以 KL 散度正则化以稳定训练。随后,文章概述了自 OpenAI o1 以来,诸如 DeepSeek-R1、Claude、Gemini、Qwen、Skywork-OR1 等一系列前沿模型的进展,它们在推理、Agentic 任务和多模态能力方面推动了 RL 的应用。
接着,文章详细阐述了 RL for LRMs 的三大基础组件:奖励设计 (Reward Design)、策略优化 (Policy Optimization) 和采样策略 (Sampling Strategy)。
奖励设计 (Reward Design)
奖励设计方面,文章细致地分类讨论了多种方法:
- 可验证奖励 (Verifiable Rewards):主要通过规则驱动的验证器(Rule-based Verifier)提供,如数学任务的答案正确性或代码任务的单元测试通过率。这些奖励是可靠且可扩展的训练信号,尤其适用于结果客观可验证的任务,体现了“验证器定律”(Verifier’s Law) 的原则。
- 生成式奖励 (Generative Rewards):当任务缺乏客观真值时,GenRMs 利用 LRMs 的生成能力产生结构化批判、理由和偏好作为奖励信号。这包括:针对可验证任务的模型驱动验证器(Model-based Verifiers),如 TinyV;针对不可验证任务的推理奖励模型(Reasoning Reward Models),通过生成 CoT 批判再判断;基于评分标准(Rubric-based Rewards),利用自然语言描述捕获主观评估标准;以及协同演化系统(Co-Evolving Systems),其中策略模型和奖励模型共同改进,例如自奖励 (Self-Rewarding) 或联合优化 (Co-Optimization)。
- 密集奖励 (Dense Rewards):提供细粒度的信用分配,提高训练效率和稳定性。包括 token 级别奖励(如 DPO 中的对数似然比)、step 级别奖励(如 Math-Shepherd 的模型驱动 PRMs 或 VinePPO 的采样驱动估计)和 turn 级别奖励(如 ToolRL 的每次工具调用反馈或 ARPO 的全局奖励分解)。
- 无监督奖励 (Unsupervised Rewards):旨在消除人类标注瓶颈。分为两类:模型特定奖励(Model-Specific Rewards),基于模型自身的输出一致性、内部置信度或自生成知识;以及模型无关奖励(Model-Agnostic Rewards),从外部自动化来源(如启发式规则或大规模未标注语料库)获取。
- 奖励塑形 (Rewards Shaping):通过组合或转换奖励信号来引导学习。包括规则驱动的奖励塑形,即结合规则验证器和奖励模型的信号;以及结构驱动的奖励塑形,通过组级别的基线(如 GRPO 中的群体均值)来计算优势函数,或直接对齐 Pass@K 等评估指标。
策略优化 (Policy Optimization)
策略优化方面,文章首先给出了策略梯度目标函数 ∇θJ(θ)=Ex∼D,y∼πθ[∑t=1T∇θlogπθ(yt∣y<t)Qt]\nabla_\theta J(\theta) = \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_\theta} \left[ \sum_{t=1}^T \nabla_\theta \log \pi_\theta(y_t | y_{<t}) Q_t \right]∇θJ(θ)=Ex∼D,y∼πθ[∑t=1T∇θlogπθ(yt∣y<t)Qt],并介绍了 PPO 算法作为常用的梯度估计方法,其核心是使用重要性采样权重 wi,t(θ)w_{i,t}(\theta)wi,t(θ) 和优势函数 A^i,t\hat{A}_{i,t}A^i,t。
- 基于 Critic 的算法 (Critic-based Algorithms):以 RLHF 为代表,引入一个 Critic 模型(通常是价值函数)来预测奖励,从而提供 token 级别的价值信号。PPO 中使用广义优势估计 (Generalized Advantage Estimator, GAE) 构建优势函数。这些方法需要 Critic 模型与 LLM 同时运行和优化,带来了显著的计算开销。
- 无 Critic 算法 (Critic-Free Algorithms):仅使用序列级别奖励进行训练,无需独立的 Critic 模型,降低了计算需求并简化了训练。REINFORCE 及其变体(如 ReMax、RLOO)是早期方法。GRPO (Group Relative Policy Optimization) 是一种流行的无 Critic 方法,通过组内相对归一化来估计优势,有效降低了训练信号方差。DAPO、CISPO、Dr. GRPO 等后续工作进一步优化了采样策略、裁剪阈值和损失归一化。
- 离线策略优化 (Off-policy Optimization):通过解耦数据收集和策略学习来提高样本效率。这包括解决训练-推理精度差异(如模型量化)造成的离线策略问题;利用异步经验回放机制(如 Retrospective Replay、EFRame)重复利用历史轨迹;以及更广泛的离线优化方法,如 SPO、TOPR 等优化器级别改进,DPO 等数据级别离线学习,以及混合策略方法 (Mix-Policy Methods),结合 SFT 和 RL,在损失函数或数据层面整合专家数据,以平衡稳定性与探索。
- 正则化目标 (Regularization Objectives):用于平衡探索与利用,增强 RL 效率和策略性能。包括 KL 正则化(约束当前策略与参考策略或旧策略的距离,以防止灾难性漂移)、熵正则化(鼓励探索,避免熵坍塌)和长度惩罚(管理生成序列的长度,平衡推理深度和计算成本)。
采样策略 (Sampling Strategy)
采样策略方面,文章探讨了如何主动地策划 rollout 来影响学习效率和行为质量:
- 动态与结构化采样 (Dynamic and Structured Sampling):
- 动态采样 (Dynamic Sampling):根据在线学习信号(如成功率、优势、不确定性或估计难度)自适应地选择 Prompt 和分配计算预算。效率导向的采样(如 PRIME、DAPO)聚焦于中等难度的例子,避免饱和或无用的样本;探索导向的采样(如 ARPO、DARS)通过熵引导或动态分配样本数量来增加多样性。
- 结构化采样 (Structured Sampling):不仅控制采样内容,还控制推理轨迹的拓扑结构,例如搜索驱动的树形 Rollout(如 TreeRL、ToTRL),将推理视为树而非链,并在节点级别分配奖励;或共享前缀/分段方案(如 SPO、TreePO),提高生成效率和计算重用。
- 采样超参数 (Sampling Hyper-parameters):通过精心调整超参数来管理探索-利用权衡和序列长度。例如,分阶段的温度增加或动态调度来调整探索广度;分阶段上下文长度延长来平衡推理深度和计算成本;以及对超长序列的过滤或惩罚机制。
总结
文章深入探讨了 RL for LRMs 中的几个基础性问题:
- RL 的作用:磨砺 (Sharpening) 还是发现 (Discovery):RL 是仅能优化基模型中已有的正确模式,还是能够发现基模型未曾获取的全新模式?这涉及 KL 散度优化中的模式覆盖 (mode-covering) 与模式寻找 (mode-seeking) 行为。
- RL 与 SFT:泛化 (Generalize) 还是记忆 (Memorize):RL 与 SFT 在泛化能力和记忆能力方面的根本差异,以及如何权衡二者的优点。
- 模型先验 (Model Prior):弱先验 (Weak) 还是强先验 (Strong):如何选择 RL 训练的起始模型,是选择一个能力较弱的模型让 RL 从头开始学习,还是选择一个能力较强的模型进行微调。
- 训练方案 (Training Recipes):技巧 (Tricks) 还是陷阱 (Traps):在实践中,许多训练技巧有效,但其底层机制和潜在风险(如奖励作弊)仍需深入分析。
- 奖励类型 (Reward Type):过程 (Process) 还是结果 (Outcome):是关注推理的中间步骤(过程奖励)还是最终结果(结果奖励)?这与奖励的稀疏性和信用分配问题密切相关。
文章还回顾了训练资源,包括静态语料库(数学、代码、STEM、Agent 和混合任务),动态环境(规则、代码、游戏、集成环境),以及 RL 基础设施和框架(如 OpenRLHF、veRL、AReaL、slime、TRL)。同时,文章列举了 RL 在下游应用中的广泛实践,涵盖了代码任务、Agentic 任务、多模态任务、多Agent 系统、机器人任务和医疗任务。
最后,文章展望了 RL for LLMs 的未来方向,包括持续 RL、基于记忆的 RL、基于模型的 RL、教导 LRM 有效推理、教导 LLM 潜在空间推理、RL for LLM 预训练、RL for 基于扩散的 LLM、RL for LLM 在科学发现中的应用,以及 RL for 架构-算法协同设计。
总而言之,本文对 RL for LRMs 进行了全面而深入的综述,从基础组件到核心问题,再到训练资源和广泛应用,旨在促进该领域未来的研究,并推动 RL 向更通用、更强大的推理模型发展,最终实现 ASI。