当前位置：首页 > news >正文

ScaleRL：掌握大语言模型强化学习的规模化艺术

news 2025/11/11 10:10:39

标题

论文：The Art of Scaling Reinforcement Learning Compute for LLMs
链接：https://arxiv.org/pdf/2510.13786
from：meta
代码：https://www.devvrit.com/scalerl_curve_fitting（用于拟合RL计算-性能缩放曲线的极简代码库）

TL;DR

本文针对LLM强化学习（RL）训练缺乏可预测规模化方法的问题，通过40万+ GPU小时的大规模实验，提出了基于S形曲线的预测框架，整合出高效可预测的RL训练方案ScaleRL。该方案在10万GPU小时训练中验证了稳定性与可预测性，性能超越现有主流方案，同时揭示了RL规模化的核心原则，让RL训练向预训练的可预测性靠拢。

背景

强化学习已成为LLM能力升级的核心技术，能解锁推理、智能体等关键能力，且RL训练的计算成本正急剧增长（部分模型RL计算量达预训练的3.75%，前沿模型代际间RL计算量增长超10倍）。但与预训练成熟的规模化定律不同，LLM的RL训练仍处于“经验驱动”阶段，缺乏统一的规模化评估框架，现有研究多是针对特定场景的零散方案，无法指导计算资源的高效缩放。

挑战

缺乏预测性框架：无法从小规模实验推断大规模RL训练的性能，导致研究依赖巨额计算资源，学术社区难以参与。
设计选择影响不明：损失聚合、归一化、数据课程学习等众多设计选择，对最终性能上限和计算效率的影响缺乏系统性分析。
稳定性与可扩展性矛盾：部分方法在小规模计算下表现优异，但规模化后性能饱和甚至下降，且易出现生成长度爆炸、数值不稳定等问题。
性能评估标准模糊：现有研究多关注下游任务表现，难以精准衡量RL方法的规模化潜力。

方法

1. 预测性缩放框架

提出S形计算-性能曲线模型，量化奖励增益与训练计算量的关系：

核心公式：
关键参数：A（渐近性能上限）、B（计算效率指数）、 $C_{mid}$ （性能达到总增益50%时的计算量）
优势：相比预训练常用的幂律模型，更适配准确率等有界指标，低计算量数据即可精准预测大规模性能。

x 轴：使用的 GPU 训练小时数（计算量）
y 轴：验证性能（validation performance）
随着计算量增加，性能上升但趋于饱和 —— 典型的 S 形（logistic）曲线。
是根据样本数据（论文中提取的点），拟合出该 S 型曲线的参数，从而预测达到某一性能所需的计算量；

def logistic_curve(x, B, R0, Cmid, A):return R0 + (A-R0) / (1 + np.power(Cmid/x, B))

x：GPU 小时数（训练资源）
y：验证性能
参数含义：
- R0：初始性能（训练刚开始的性能）
- A：最终性能上限（asymptote）
- Cmid：达到一半性能增益时的 GPU 小时数（中点）
- B：曲线斜率控制项（增长快慢）
曲线形状：
- 当 x 很小时，性能 ≈ R0
- 当 x 很大时，性能 → A
- 当 x = Cmid 时，性能 ≈ (A + R0)/2
- B 越大，曲线越陡峭（增长更快）
曲线拟合方式：
- Dense 模型的训练计算量序列 gpu_hours_8b = np.array([i*100 for i in range(1, 74)])*13.25
- 对应验证性能 validation_perf_8b = […]
- Cmid 在 [4000, 16000] 间取 100 个值：C_mid_values = np.linspace(4000, 16000, 100)
- A 在 [0.5, 0.75] 间取步长 0.005：A_values = [i/1000 for i in range(500, 750, 5)]
  - 这两个参数通过网格搜索固定，剩下 B 通过曲线拟合求得。
  - 用最小二乘法（scipy.optimize.curve_fit）寻找最佳 B；
- 对每组 (A, Cmid) 计算残差平方和（ss_res）；
- 选择误差最小的参数组合作为最优拟合。

2. ScaleRL方案设计

实现初始说明：

使用一个8B参数的稠密模型，在可验证的数学题目上进行强化学习实验，从可预测的计算扩展行为角度研究多个设计维度，重点关注其渐近性能（A）和计算效率（B）
基础设置：使用 Polaris-53K 数据集，每个 batch 包含 768 个样本（48 个提示，每个提示生成 16 条推理路径）
在分布内验证数据上衡量预测性能：从Polaris-53k数据集中随机抽取1,000个提示作为验证集，其余用于训练。扩展曲线基于验证集上的平均通过率进行拟合，每100个训练步骤评估一次，每个提示生成16个样本。

实验阶段一：首先研究异步离策略RL设置的选择，因为它对训练稳定性和效率具有普遍影响，独立于其他设计选择。

比较了两种离策略学习方法：PPO-off-policy-k 和 PipelineRL-k。

PPO-off-policy-k
- 异步 RL 默认方案，Qwen3、ProRL 等采用。
- 旧策略 $πθoldgen\pi_{\theta_{\text{old}}}^{\text{gen}}$ 先生成整个 batch 的轨迹，再按 mini-batch 大小 $B^\hat B$ 做 $k=B/B^k=B/\hat B$ 次梯度更新。
- 实验固定 $B^=48\hat B=48$ 个提示（每提示 16 条样本），通过改变总 batch 大小 $B$ 来设置 $k∈{1,8}k\in\{1,8\}$ 。
PipelineRL-k
- 流式生成：生成器持续产出轨迹；训练器完成一次更新后立即把新参数推送给生成器，生成器继续用新权重（保留旧 KV-Cache）完成剩余生成。
- 引入参数 $k$ ：训练器最多允许领先生成器 $k$ 步。
- 减少生成器空闲时间，训练-生成耦合更紧密，更接近“准 on-policy”状态。
结果显示：图4a显示PipelineRL和PPO-off-policy在渐近性能A上相近，但PipelineRL在计算效率B上显著更优，因此能更快地达到性能上限A。这是因为PipelineRL减少了训练过程中的空闲时间，使得在相同计算预算下可以运行更多实验。我们还测试了PipelineRL的不同最大离策略步数，发现k=8是最优选择（图4b）

实验阶段二：算法设计选择

在确认 PipelineRL-8 作为新的基线后，我们系统研究了 6 个关键算法维度：

损失函数类型比较三种主流选择：

DAPO：非对称裁剪 + token 级重要性采样 + prompt-level损失聚合
Token 级重要性权重: $ρi,t=πθ(yi,t∣x,yi,<t)πθold(yi,t∣x,yi,<t)\rho_{i,t}= \frac{\pi_\theta(y_{i,t}|x,y_{i,<t})}{\pi_{\theta_{\text{old}}}(y_{i,t}|x,y_{i,<t})}$
非对称裁剪： $clipasym(ρ,1−ε−,1+ε+)ε+≠ε−\text{clip}_{\text{asym}}(\rho,1-\varepsilon^-,1+\varepsilon^+)\quad \varepsilon^+\neq \varepsilon^-$ （向上裁剪更宽，防止熵塌缩）
Prompt-level 损失聚合：

其中 ( $T=∑i∣yi∣T=\sum_i |y_i|$ ) 为总 token 数
GSPO：序列级重要性采样（Zheng et al., 2025a）
序列级重要性权重： $ρi=πθ(yi∣x)πθold(yi∣x)=∏t=1∣yi∣πθ(yi,t∣x,yi,<t)πθold(yi,t∣x,yi,<t)\rho_i= \frac{\pi_\theta(y_i|x)}{\pi_{\theta_{\text{old}}}(y_i|x)} = \prod_{t=1}^{|y_i|} \frac{\pi_\theta(y_{i,t}|x,y_{i,<t})}{\pi_{\theta_{\text{old}}}(y_{i,t}|x,y_{i,<t})}$
裁剪/归一化均在序列level 完成：
CISPO：截断 IS + 停梯度 REINFORCE（MiniMax et al., 2025；Yao et al., 2025）

FP32 精度修正
生成器与训练器使用不同 kernel，导致 LM Head 处概率微小不一致，进而扭曲 IS 比例。MiniMax 等指出在 Head 层统一用 FP32 可缓解该问题。

图 5a 显示：GSPO 与 CISPO 的渐近通过率 A 显著高于 DAPO；CISPO 后期略优于 GSPO，因此选为默认损失函数。
图 5b 显示：开启 FP32 后 A 从 0.52 → 0.61，遂纳入 ScaleRL。
损失聚合策略比较三种粒度：
sample-average：（GRPO 默认）

prompt-average：（DAPO 默认）

token-average：1个batch中所有 token 直接平均
优势归一化对比：
prompt-level：同一提示的 rollout 内归一化（GRPO）
batch-level：整个 batch 内归一化（Hu et al., 2025a；Magistral）
no-normalization：仅去均值不除标准差（Dr. GRPO）

图 14a 结果：prompt-average 的 A 最高，故采用。
图 14b：三者最终性能相近，batch-level 理论上更稳健且略高效，被选为默认。
Zero-Variance 过滤：部分提示所有样本奖励相同（方差为 0），对策略梯度无贡献。过滤后只保留方差 >0 的提示
自适应 Prompt 过滤：观察到一旦某提示通过率达到 ≥0.9，后续 epoch 继续采样几乎不再提供有效梯度。（实现方式：维护历史通过率，永久剔除高通过率提示。）

图 6a 显示过滤后 A 提高，ScaleRL 采用此策略。
图 6b 证实该课程策略能提升 A。

ScaleRL设计：

基础架构：异步PipelineRL（8步离策略度），减少训练空闲时间，提升效率。
损失与优化：CISPO截断重要性采样损失（兼顾稳定性与性能）、提示级损失聚合、批次级优势归一化。
稳定性保障：LM头使用FP32精度（缓解数值不匹配）、零方差过滤（剔除无梯度贡献的样本）、强制长度中断（避免生成过长，当思维链超过 10 k-12 k token 时插入
Okay, time is up. Let me stop thinking and formulate a final answer now.）。
数据策略：No-Positive-Resampling采样（剔除通过率≥0.9的简单样本），提升样本利用效率。

方案优越性：ScaleRL的渐近性能A=0.61，超越DeepSeek（GRPO）、Qwen2.5（DAPO）等主流方案，且计算效率更高（B=1.97）。
在这里插入图片描述

3. 留一法（LOO）消融

为验证上述每一点在“组合后”仍带来净收益，我们从 ScaleRL 出发，每次回退一个维度到第 2 节的基线设置，单独训练至 16 000 GPU-h。
所有 LOO 实验仅使用前 8 000 GPU-h 数据拟合，外推至 16 000 GPU-h，预测曲线与继续训练的实际点重合（图 7、图 8a），表明 ScaleRL 及其变体在大规模下依然稳定、可预测。
图 7 汇总了结果：

所有 LOO 变体的渐近通过率 A 与 ScaleRL 相近（±0.02 误差带内）。
主要差异体现在计算效率 B（斜率越陡同样算力下性能越高）。
将 sigmoid 曲线固定 A=0.605 重新拟合，ScaleRL 的 B=2.01，优于任何 LOO 回退，证实每一点都贡献效率。

实验与结果

在固定或持续增加的计算预算下，应如何调整——上下文长度、batch 大小、每提示样本数、还是模型规模——才能最稳妥地获得性能提升？又能多早预测到这种回报？

实验

模型规模（MoE）
问题：ScaleRL 在更大模型上仍保持稳定与可预测性吗？
用 17B×16 Llama-4 Scout MoE 训练，曲线与 8B 稠密模型一样可预测（图 1）。
扩展点与拟合线重合，表明配方对模型规模不变。
17B×16 的渐近性能 A 显著高于 8B，仅用 1/6 的 RL 计算量即可超越 8B 的最终表现。

在这里插入图片描述

生成长度（上下文预算）
将生成长度从 14 k → 32 k token，早期进展变慢（B 降低、C_mid 升高），但渐近线 A 一致抬高。
图 9 显示：32 k 曲线在足够算力后全面超越 14 k，验证长上下文 RL 是抬升天花板而非单纯牺牲效率。
提前拟合可准确预测 32 k 的最终轨迹。
全局 batch 大小（提示数）
小 batch 在下游任务上早期便出现停滞，即使验证集仍在提升。
大 batch 可靠地提高 A，并消除下游停滞。
图 10a：batch=512 早期领先，但随计算量增加被 batch=2048 反超。
在最大数学运行中，batch 提到 2048 提示（32 k 样本）既稳定训练，也能用前 50 k GPU-h 准确外推到 100 k。
每提示样本数（固定总样本数）
固定总样本数，扫描每提示样本数 8→16→24→32，并反向调整提示数，使 batch 总量不变。
拟合曲线几乎重叠（附录图 17）。
在中等 batch 规模下，该维度是二阶因素；更大 batch（≥2 k）时差异可能显现，留待未来研究。
多任务 RL（数学 + 代码）
联合训练数学与代码，两条验证曲线均呈平行幂律（图 11）。
延长训练与外推线重合，表明 ScaleRL 的扩展性跨领域成立。
初步结果鼓励在未来对更复杂多任务组合进行可预测扩展研究。

关键结果

方案优越性：ScaleRL的渐近性能A=0.61，超越DeepSeek（GRPO）、Qwen2.5（DAPO）等主流方案，且计算效率更高（B=1.97）。
预测性验证：基于50k GPU小时数据拟合的曲线，能精准预测10万GPU小时的性能，误差≤0.02。
多维度扩展性：
- 模型规模：17B MoE模型仅用8B模型1/6的计算量，就达到更高渐近性能（A=0.71）。
- 生成长度：32k tokens训练虽初期效率低，但最终渐近性能高于14k tokens（A=0.65 vs 0.61）。
- 批次大小：2048批次虽训练速度慢，但避免了小批次的下游性能停滞，渐近性能更优。

总结与启示

核心结论

RL规模化的关键是“先提上限再提效率”：
- 损失类型、FP32精度主要影响性能上限（A）；
- loss 聚合、归一化、数据课程学习、长度惩罚等干预主要调节计算效率 B，对天花板 A 影响有限。
可预测性是规模化的前提：稳定的RL方案（如ScaleRL）遵循可重复的S形缩放轨迹，小规模实验即可指导大规模部署。
组合优化优于单点创新：ScaleRL无全新算法，而是通过系统性整合现有技术，解决了规模化中的稳定性、效率和预测性问题。