当前位置：首页 > news >正文

DAPO（Dynamic sAmpling Policy Optimization）

news 2025/11/15 8:08:01

DAPO是一种直接基于“优势函数 Advantage”来优化策略的对齐方法，不需要奖励模型，也不需要 KL 惩罚，是 RLHF 的轻量级替代方案。

首先看两者公式：

1、移除KL散度

KL惩罚项用于调节在线策略和冻结参考策略之间的散度。在RLHF场景中，RL的目标是对齐模型行为而不偏离初始模型太远。然而，在训练长链思考推理模型期间，模型分布可能与初始模型有显著差异，因此这一限制不是必需的。因此，我们将从提出的算法中排除KL项。

2、使用 Clip-Higher

在使用常规 PPO 或 GRPO 的实验中，作者观察到 策略熵快速下降（entropy collapse），即模型输出趋于高度确定性，探索受限，这会阻碍训练和扩展。

原因在于 PPO-Clip 的上界裁剪（upper clip）

PPO-Clip 限制了重要性采样比的变化幅度，以保持训练稳定。
但是对低概率“探索”动作（exploration tokens）而言，上界裁剪过紧，导致它们的概率很难增加；而高概率“利用”动作（exploitation tokens）则容易进一步被放大。
举例：ε=0.2 时，高概率动作从 0.9 增加到 1.08 很容易，但低概率动作从 0.01 只能增加到 0.012，提升有限。
实验发现，上裁剪后的低概率动作平均概率仍然很低（<0.2），说明探索受限。

为解决这个问题，作者提出 Clip-Higher 策略：

将上下裁剪范围解耦为 ε_low 和 ε_high。
增加 ε_high，为低概率“探索”动作提供更大的增长空间，从而提升策略熵和样本多样性。
保持 ε_low 不变，避免抑制低概率动作导致采样空间坍塌。

3、Dynamic Sampling

现有的强化学习算法（如 GRPO）在处理某些提示（prompt）时，如果所有输出都完全正确（accuracy = 1），会导致优势函数（advantage）为零，从而产生零策略梯度。零梯度会使梯度幅度减小、对噪声更敏感，降低样本效率。随着训练进行，完全正确或完全错误的样本数量增加，导致每个批次中有效提示数量减少，使梯度方差增大、训练信号减弱。为了解决这个问题，作者提出 对完全正确（accuracy=1）或完全错误（accuracy=0）的提示进行过采样和过滤，确保每个批次中只包含能够产生有效梯度的样本，从而保持批次大小和梯度信号的稳定。采样成本动态调整，训练前会持续采样，直到批次被有效样本填满。

4、Token-Level Loss

原始 GRPO 使用 样本级损失（sample-level loss）：先在每个样本内按 token 平均，再跨样本汇总，最终每个样本权重相同。

问题在 长链式推理（long-CoT）场景下：