当前位置：首页 > news >正文

26、DAPO论文笔记（解耦剪辑与动态采样策略优化，GRPO的改进）

news 2025/7/6 10:20:55

DAPO论文笔记

1、项目背景与目标
2、DAPO算法与关键技术
3、过长响应奖励塑形（Overlong Reward Shaping）
- - - **一、问题背景：截断惩罚的缺陷**
    - **二、解决方案：分层惩罚与软截断策略**
    - - 1. **过长过滤：屏蔽无效惩罚**
      - 2. **软过长惩罚：梯度化长度约束**
    - **三、实验验证：惩罚策略的有效性**
    - **四、总结：平衡长度与质量的核心逻辑**
- 示例
- - **一、任务背景：数学题推理（AIME风格）**
  - **二、示例1：安全区内的正确响应（无惩罚）**
  - - **输入Prompt**：
    - **模型输出（10000 tokens）**：
    - **奖励计算**：
    - **模型反馈**：
  - **三、示例2：缓冲区内的过长响应（线性惩罚）**
  - - **输入Prompt**：
    - **模型输出（14336 tokens）**：
    - **奖励计算**：
    - **模型反馈**：
  - **四、示例3：超限时的过长响应（严厉惩罚）**
  - - **输入Prompt**：
    - **模型输出（18000 tokens）**：
    - **奖励计算**：
    - **模型反馈**：
  - **五、对比：默认惩罚 vs. 软惩罚的输出差异**
  - - **关键区别**：
  - **六、总结：奖励塑形对Prompt响应的影响**
4、预备知识
- - - 2.1 近端策略优化（PPO）
    - 2.2 组相对策略优化（GRPO）
    - 2.3 移除KL散度惩罚
    - 2.4 基于规则的奖励建模
  - 基于规则的奖励建模
  - - 一、奖励博弈问题（Reward Hacking）的本质
    - 二、基于规则的奖励建模：直接以正确性为导向
    - 三、规则奖励的有效性：跨领域验证
    - 四、规则奖励 vs. 学习型奖励模型：对比分析
5、汇总
- - - 一、项目背景与目标
    - 二、DAPO算法与关键技术
    - 三、开源内容与技术栈
    - 四、实验结果与性能对比
    - 五、数据集处理与训练细节
  - 关键问题
  - - 1. **DAPO算法的核心创新点是什么？**
    - 2. **DAPO开源了哪些内容？对领域研究有何影响？**
    - 3. **DAPO在AIME 2024中的性能表现如何？相比之前的模型有何优势？**
参考:

论文题目：DAPO: An Open-Source LLM Reinforcement Learning System at Scale
论文链接：https://arxiv.org/abs/2503.14476
官方解释：https://air.tsinghua.edu.cn/info/1007/2401.htm

Date: March 17, 2025
Correspondence: Qiying Yu at yuqy22@mails.tsinghua.edu.cn
Project Page: https://dapo-sia.github.io/

详细原理（先看）：知乎 DAPO：GRPO的改进备份：链接
下面是对其补充

1、项目背景与目标

领域挑战：
- 现有LLM推理模型（如OpenAI o1、DeepSeek R1）依赖大规模强化学习（RL）实现复杂推理，但核心训练细节闭源，社区难以复现结果。
- 基线算法（如GRPO）在长链式思维（CoT）场景中存在**熵崩塌、奖励噪声、训练不稳定**等问题，导致性能低下（如GRPO在AIME仅30分）。
核心目标：
- 开源可复现的大规模LLM RL系统，提供工业级训练方案。
- 提出DAPO算法，解决长CoT场景下的RL优化难题。

2、DAPO算法与关键技术

技术名称	核心作用	实现细节	效果
Clip-Higher	解耦高低剪辑范围，促进低概率token探索	- 分离剪辑参数为 $\varepsilon_{low}$ （0.2）和 $\varepsilon_{high}$ （0.28） - 允许低概率token概率提升空间更大	- 策略熵提升，生成多样性增加 - AIME准确率从基线30%提升至40%+
Dynamic Sampling	过滤无效梯度样本，稳定训练效率	- 丢弃准确率为0或1的样本，保留有效梯度 - 动态采样直至批次填满	- 收敛速度提升，相同性能所需步骤减少 - 训练时间未显著增加，但效率更高
Token-Level Policy Gradient Loss	按token加权损失，优化长序列训练	- 按token数量加权损失，而非按样本平均 - 惩罚长序列中的低质量模式（如重复、乱码）	- 响应长度增长更健康 - 训练稳定性提升
Overlong Reward Shaping	软惩罚过长响应，减少奖励噪声	- 对超过最大长度的响应分阶段惩罚 - $L_{max}=20480$ tokens，缓冲区间 $L_{cache}=4096$	- 训练稳定性显著提升 - AIME准确率波动减小

在长链式思维（CoT）场景中存在熵崩塌、奖励噪声、训练不稳定等问题，导致性能低下：

解决熵问题（熵崩塌）：Clip-Higher
解决输出样本问题（训练不稳定）：Dynamic Sampling 和Token-Level Policy Gradient Loss
解决输出长度问题（奖励噪声）：Overlong Reward Shaping

具体细节：  
1. **Clip-Higher**：增强系统多样性，避免熵崩塌；  
2. **Dynamic Sampling**：提高训练效率和稳定性；  
3. **Token-Level Policy Gradient Loss**：在长CoT RL场景中至关重要；  
4. **Overlong Reward Shaping**：减少奖励噪声，稳定训练过程。

提出 Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO)，包含四大关键技术：

Clip-Higher
• 问题：传统PPO/GRPO的上下剪裁对称限制（如ε=0.2）导致低概率token难以提升，引发熵崩溃（生成样本同质化）。
• 方案：解耦上下剪裁范围（如ε_low=0.2，ε_high=0.28），允许低概率token有更大提升空间，提升多样性（图2b熵增加，图3a概率分布更均衡）。
Dynamic Sampling
• 问题：当某组样本全对/全错时，优势函数为零，梯度消失，训练效率下降。
• 方案：动态过滤掉全对/全错的提示，仅保留部分正确样本，确保批次内有效梯度信号（图3b减少无效样本，图6加速收敛）。
Token-Level Policy Gradient Loss
• 问题：GRPO的样本级损失平均导致长序列token贡献被稀释，难以学习有效推理模式。
• 方案：改为Token级损失计算，按总token数平均，平衡长短序列影响，提升稳定性（图4a/b长度增长更健康）。
Overlong Reward Shaping
• 问题：过长响应的截断惩罚（如直接-1）引入噪声，干扰有效推理步骤的奖励。
• 方案：采用软惩罚（公式13），根据超长程度逐步增加惩罚，并过滤截断样本的损失（图5训练更稳定）。·

3、过长响应奖励塑形（Overlong Reward Shaping）

在强化学习（RL）训练中，生成序列的长度控制是关键挑战之一。模型可能因过度探索生成冗长无效的响应，或因截断机制导致合理推理被误罚。本节介绍过长响应奖励塑形技术，通过精细设计惩罚策略平衡响应长度与推理质量。
生成内容长度控制，及其超出阈值截断：

传统做法：对截断样本直接施加惩罚性奖励（如 $R = - 1$ ）。
平滑引导：缓冲期的线性惩罚避免了截断点附近的奖励突变，引导模型逐步缩短响应长度，而非突然终止有效推理。（平缓过度）

一、问题背景：截断惩罚的缺陷

截断机制的必要性
- 在长链式思维（CoT）任务中（如数学推理、代码生成），模型需生成较长的中间步骤，但无限制生成会导致计算成本激增。因此，通常设定最大生成长度 $L_{\text{max}}$ ，超过该长度的样本会被截断。
默认惩罚的弊端
- 传统做法：对截断样本直接施加惩罚性奖励（如 $R = - 1$ ）。
- 核心问题：
  - 奖励噪声：合理但未完成的推理可能因长度超限被误罚。例如，数学题中一个复杂证明需20000 tokens，但因 $L_{\text{max}}=16384$ 被截断，模型会错误地将“长度”与“错误”关联，而非优化推理逻辑。
  - 训练不稳定：频繁的误罚可能导致模型收敛困难，甚至退化为生成短但无意义的响应。

二、解决方案：分层惩罚与软截断策略

为解决默认惩罚的缺陷，本文提出双重策略：过长过滤（Overlong Filtering）和软过长惩罚（Soft Overlong Punishment）。

1. 过长过滤：屏蔽无效惩罚

核心思想：对于长度超过 $L_{\text{max}}$ 的样本，忽略其损失计算，避免误罚干扰训练。
实现方式：在计算奖励时，若样本被截断，则不将其纳入梯度更新。
效果：
- 如图5（a）所示，启用过滤后，AIME准确率波动显著减小，训练稳定性提升。
- 模型不再因“长度”错误地抑制合理推理，专注于优化内容质量。

2. 软过长惩罚：梯度化长度约束

核心思想：引入缓冲区间 $L_{\text{cache}}$ ，对接近但未超过 $L_{\text{max}}$ 的响应实施梯度化惩罚，而非一刀切式的严厉处罚。
数学定义：
$R_{\text{length}}(y) = \begin{cases} 0, & |y| \leq L_{\text{max}} - L_{\text{cache}} \quad \text{（安全区：无惩罚）} \\ \frac{(L_{\text{max}} - L_{\text{cache}}) - |y|}{L_{\text{cache}}}, & L_{\text{max}} - L_{\text{cache}} < |y| \leq L_{\text{max}} \quad \text{（缓冲期：线性惩罚）} \\ -1, & |y| > L_{\text{max}} \quad \text{（超限区：严厉惩罚）} \end{cases}$
安全区：长度在 $L_{\text{max}} - L_{\text{cache}}$ 以内，视为有效响应，奖励为0。
- 缓冲期：长度超出安全区但未达 $L_{\text{max}}$ ，惩罚随长度线性增加（例如， $L_{\text{cache}}=4096$ 时，每超出1 token惩罚减少 $1/4096$ ）。
- 超限区：长度超过 $L_{\text{max}}$ ，惩罚为-1，强制抑制过长生成。
直观示例：
- 假设 $L_{\text{max}}=16384$ ， $L_{\text{cache}}=4096$ ，则安全区为 $\sim 12288$ tokens，缓冲期为 $\sim 16384$ tokens。
- 若生成14336 tokens的响应（缓冲期中间点），惩罚值为 $\frac{12288 - 14336}{4096} = -0.5$ ，即奖励为原规则奖励（±1）基础上叠加-0.5。
- 若生成17000 tokens（超限区），奖励直接为-1，无论内容是否正确。
设计优势：
- 平滑引导：缓冲期的线性惩罚避免了截断点附近的奖励突变，引导模型逐步缩短响应长度，而非突然终止有效推理。
- 区分惩罚：将“合理但稍长的响应”与“无意义的超长响应”区分对待，前者仅受轻微惩罚，后者被严厉抑制。

三、实验验证：惩罚策略的有效性

关键指标对比

策略	训练稳定性（AIME准确率波动）	平均响应长度	熵值（探索能力）
无惩罚	高（因超长样本干扰）	极高（冗余）	高（含无效探索）
默认惩罚（-1）	中（误罚导致震荡）	低（可能过短）	低（抑制探索）
软过长惩罚	低（稳定收敛）	中等（合理）	中等（平衡探索）

图5实验结果解析
- 图5（a）：启用软惩罚后，AIME准确率从基线的波动上升变为稳定增长，验证了奖励噪声的减少。
- 图5（b）：模型生成熵值（多样性）维持在合理区间，表明软惩罚未过度抑制探索，仅淘汰无意义的超长响应。

四、总结：平衡长度与质量的核心逻辑

过长响应奖励塑形的本质是在约束中保留灵活性：

过滤策略解决“合理推理被误罚”的问题，确保模型专注于内容正确性；
软惩罚机制通过梯度化约束，引导模型自动优化响应长度，避免因生硬截断导致的训练偏差。
该技术在DAPO系统中的应用，使得模型在AIME竞赛中以20480 tokens的长上下文实现50分准确率，证明了长度控制与推理能力的协同优化可行性。

示例

以下是结合具体输入输出Prompt说明 Overlong Reward Shaping（过长响应奖励塑形） 的完整示例，包含任务背景、模型输入输出、奖励计算过程及优化反馈：

一、任务背景：数学题推理（AIME风格）

题目：
已知等边三角形ABC为四面体S-ABC的底面，点A在面SBC上的投影H是△SBC的垂心，二面角H-AB-C为30°，SA=2，求四面体体积。答案需以整数k+m形式给出，其中体积为k/m。

设定参数：

最大生成长度 $L_{\text{max}} = 16384$ tokens
缓冲区间 $L_{\text{cache}} = 4096$ tokens
安全区长度阈值： $L_{\text{max}} - L_{\text{cache}} = 12288$ tokens

二、示例1：安全区内的正确响应（无惩罚）

输入Prompt：

问题：已知等边三角形ABC为四面体S-ABC的底面...（完整题目）
请逐步推导四面体体积，要求逻辑清晰，每步标注关键定理。

模型输出（10000 tokens）：

建立坐标系，设ABC在xy平面，A(0,0,0)，B(a,0,0)，C(a/2, (√3/2)a, 0)。
推导面SBC的方程，利用H为垂心的条件，得出S的坐标约束。
通过二面角定义计算平面HAB与平面ABC的法向量夹角，结合SA=2求解参数a。
最终体积公式推导： $\frac{1}{3} \times \text{底面积} \times \text{高} = \frac{\sqrt{3}}{12}$ ，故k=√3, m=12（假设转换后答案为整数和，需进一步处理）。

奖励计算：

长度判断：10000 tokens ≤ 12288 tokens → 安全区。
规则奖励：答案正确（假设最终转换后k+m=3+12=15）→ $R_{\text{correct}} = 1$ 。
长度奖励： $R_{\text{length}} = 0$ 。
总奖励： $1 + 0 = 1$ 。

模型反馈：

奖励为正，鼓励保持当前推理长度和质量。

三、示例2：缓冲区内的过长响应（线性惩罚）

输入Prompt：

同上（要求逐步推导，但未限制长度）。

模型输出（14336 tokens）：

包含示例1的正确推理，但额外添加：
- 详细图解说明（文字描述投影关系，增加2000 tokens）。
- 重复验证垂心性质的不同等价条件（增加1000 tokens）。
关键问题：内容正确但冗余，长度超出安全区。

奖励计算：

长度计算：
$\quad L_{\text{max}} - L_{\text{cache}} = 12288, \quad L_{\text{cache}} = 4096$

$R_{\text{length}} = \frac{12288 - 14336}{4096} = \frac{-2048}{4096} = -0.5$
2. 规则奖励：答案正确 → $R_{\text{correct}} = 1$ 。
3. 总奖励： $1 + (- 0.5) = 0.5$ 。

模型反馈：

奖励低于示例1，提示模型减少冗余内容。下一次训练中，模型可能精简图解描述，保留核心推导，长度缩短至13000 tokens，奖励提升至：
$R_{\text{length}} = \frac{12288 - 13000}{4096} \approx -0.174, \quad \text{总奖励} \approx 0.826$

四、示例3：超限时的过长响应（严厉惩罚）

输入Prompt：

同上，但模型尝试生成更详细的三维几何模拟过程。

模型输出（18000 tokens）：

包含正确推理，但未完成最终体积计算（因16384 tokens处截断）。
截断位置：即将代入SA=2求解参数a时被截断，答案缺失。

奖励计算：

长度判断：18000 tokens > 16384 tokens → 超限区。
规则奖励：因答案缺失，判断为错误 → $R_{\text{correct}} = -1$ 。
长度奖励： $R_{\text{length}} = -1$ 。
总奖励： $- 1 + (- 1) = - 2$ 。

模型反馈：

严厉惩罚促使模型调整生成策略，例如：

优先生成关键步骤（如参数求解、体积公式），延后或省略次要细节（如图解）。
下一次尝试将核心推导压缩至16384 tokens内，确保答案完整。

五、对比：默认惩罚 vs. 软惩罚的输出差异

场景	默认惩罚（直接-1）	软惩罚（公式13）
示例2输出（14336 tokens）	总奖励=0（假设直接惩罚长度，忽略内容正确性）	总奖励=0.5（保留部分奖励，引导优化）
模型后续行为	可能过度缩短至8000 tokens（牺牲推理步骤）	逐步优化至12000-13000 tokens（平衡长度与质量）

关键区别：

默认惩罚将“长度”与“错误”强绑定，可能导致模型为规避惩罚而牺牲内容完整性；
软惩罚通过梯度化机制，允许模型在缓冲区内试探合理长度，逐步收敛至最优解。

六、总结：奖励塑形对Prompt响应的影响

通过以上示例可见，Overlong Reward Shaping 对模型输出的引导作用如下：

安全区：鼓励生成完整、详细的推理（如示例1）。
缓冲区：轻微惩罚冗余，推动模型提炼关键信息（如示例2）。
超限区：强制约束计算成本，确保核心内容优先生成（如示例3）。

该机制通过分层奖励信号，使模型在长上下文任务中自动平衡“内容丰富度”与“计算效率”，是DAPO系统实现高效RL训练的关键技术之一。

4、预备知识

2.1 近端策略优化（PPO）

PPO[21]通过引入剪辑替代目标函数来优化策略。通过剪辑操作将策略更新限制在前序策略的近端区域内，PPO可稳定训练并提高样本效率。具体而言，PPO通过最大化以下目标函数更新策略：
$J_{\text{PPO}}(\theta) = \mathbb{E}_{(q,a) \sim \mathcal{D}, o_{\leq t} \sim \pi_{\theta_{\text{old}}}(\cdot | q)} \left[ \min \left( \frac{\pi_{\theta}(o_t | q, o_{<t})}{\pi_{\theta_{\text{old}}}(o_t | q, o_{<t})} \hat{A}_t, \text{clip}\left( \frac{\pi_{\theta}(o_t | q, o_{<t})}{\pi_{\theta_{\text{old}}}(o_t | q, o_{<t})}, 1-\varepsilon, 1+\varepsilon \right) \hat{A}_t \right) \right]$
其中， $(q, a)$ 为数据分布 $\mathcal{D}$ 中的问答对， $\varepsilon$ 为重要性采样比的剪辑范围， $\hat{A}_t$ 为t时刻的优势函数估计值。给定值函数 $V$ 和奖励函数 $R$ ， $\hat{A}_t$ 采用广义优势估计（GAE）[22]计算：
$\hat{A}_t^{\text{GAE}(\gamma, \lambda)} = \sum_{l=0}^{\infty} (\gamma \lambda)^l \delta_{t+l}$
其中，
$\delta_l = R_l + \gamma V(s_{l+1}) - V(s_l), \quad 0 \leq \gamma, \lambda \leq 1.$

2.2 组相对策略优化（GRPO）

与PPO相比，GRPO剔除了值函数，采用组相对方式估计优势函数。对于特定问答对 $(q, a)$ ，行为策略 $\pi_{\theta_{\text{old}}}$ 采样生成G个响应 ${o_i\}_{i=1}^G$ ，第i个响应的优势函数通过对组内奖励 ${R_i\}_{i=1}^G$ 标准化计算：
$\hat{A}_{i,t} = \frac{r_i - \text{mean}(\{R_i\}_{i=1}^G)}{\text{std}(\{R_i\}_{i=1}^G)}.$
与PPO类似，GRPO采用剪辑目标函数，并直接引入KL散度惩罚项：
$J_{\text{GRPO}}(\theta) = \mathbb{E}_{(q,a) \sim \mathcal{D}, \{o_i\}_{i=1}^G \sim \pi_{\theta_{\text{old}}}(\cdot | q)} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \left( \min \left( r_{i,t}(\theta) \hat{A}_{i,t}, \text{clip}\left( r_{i,t}(\theta), 1-\varepsilon, 1+\varepsilon \right) \hat{A}_{i,t} \right) - \beta D_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}}) \right) \right]$
其中，
$r_{i,t}(\theta) = \frac{\pi_\theta(o_{i,t} | q, o_{i,<t})}{\pi_{\theta_{\text{old}}}(o_{i,t} | q, o_{i,<t})}.$
值得注意的是，GRPO在样本级别计算目标函数：先计算每个生成序列的平均损失，再对不同样本的损失取平均。如3.3节所述，这一差异可能对算法性能产生影响。

2.3 移除KL散度惩罚

KL惩罚项用于约束在线策略与固定参考策略的差异。在RLHF场景[23]中，RL的目标是对齐模型行为，避免偏离初始模型太远。然而，在训练长CoT推理模型时，模型分布可能显著偏离初始模型，因此该约束并非必要。因此，我们在提出的算法中移除了KL项。

2.4 基于规则的奖励建模

传统奖励模型常面临奖励博弈问题[24-29]。为此，我们直接以可验证任务的最终准确率作为奖励信号，计算公式如下：
$is_equivalent ( y ^ , y ) − 1 , otherwise R(\hat{y}, y) = \begin{cases} 1, & \text{is\_equivalent}(\hat{y}, y) \\ -1, & \text{otherwise} \end{cases}$
其中， $y$ 为真实答案， $\hat{y}$ 为预测答案。该方法已在自动定理证明[30-33]、计算机编程[34-37]和数学竞赛[2]等多个领域验证有效，能激活基础模型的推理能力。

基于规则的奖励建模

Rule-based Reward Modeling（基于规则）
奖励模型的困境与基于规则的替代方案

一、奖励博弈问题（Reward Hacking）的本质

在强化学习（RL）中，奖励模型（如通过学习训练的奖励函数）的核心目标是引导模型生成符合预期的输出。然而，这类模型普遍面临奖励博弈问题：

定义：模型通过“投机取巧”的方式最大化奖励，而非真正解决问题。例如：
- 在文本生成中，模型可能生成与问题无关但语法流畅的内容（利用奖励模型对流畅度的偏好）；
- 在数学推理中，模型可能直接编造答案格式（如模仿正确答案的数值范围），而非推导正确过程。
根源：奖励模型的信号与真实任务目标存在偏差，模型通过“模式匹配”而非“语义理解”获取奖励。
引用支持：文献[24-29]指出，奖励博弈是RLHF（基于人类反馈的强化学习）中普遍存在的挑战，尤其在复杂任务（如推理、编程）中更为显著。

二、基于规则的奖励建模：直接以正确性为导向

为规避奖励博弈，本文提出基于规则的奖励函数，直接将可验证任务的最终准确性作为奖励信号，计算公式为：
$is_equivalent ( y ^ , y ) − 1 , otherwise R(\hat{y}, y) = \begin{cases} 1, & \text{is\_equivalent}(\hat{y}, y) \\ -1, & \text{otherwise} \end{cases}$

核心要素：
- $y$ ：真实答案（如数学题的数值解、编程题的正确输出）；
- $\hat{y}$ ：模型预测答案；
- $is_equivalent ( ⋅ ) \text{is\_equivalent}(\cdot)$ ：判断预测与真实答案是否等价的规则（如数值相等、逻辑等价）。
示例：
- 数学竞赛：若真实答案为整数15，模型输出“15”或“3×5”均视为等价，奖励为+1；输出“16”则奖励为-1。
- 编程任务：若程序需输出“Hello World”，模型生成该字符串奖励+1，生成“Hello World!”则因字符差异奖励-1。

三、规则奖励的有效性：跨领域验证

该方法在多个领域被证明能有效激活模型的推理能力：

自动定理证明（文献[30-33]）：
- 任务：证明数学定理（如勾股定理）。
- 规则：预测的证明步骤需逻辑自洽且推导出目标结论，否则视为错误。
- 效果：模型被迫学习严谨的逻辑链条，而非生成看似合理但漏洞百出的证明。
计算机编程（文献[34-37]）：
- 任务：编写排序算法代码。
- 规则：代码需通过预设测试用例（如输入[3,1,2]输出[1,2,3]），否则奖励-1。
- 效果：模型专注于算法逻辑的正确性，而非生成语法正确但功能错误的代码。
数学竞赛（如AIME）（文献[2]）：
- 任务：求解复杂几何问题。
- 规则：答案需与标准答案数值一致（如体积为√3/12，转换为整数和后为3+12=15）。
- 效果：本文实验显示，基于规则奖励的DAPO模型在AIME 2024中达到50分准确率，显著优于依赖学习型奖励模型的基线方法。

四、规则奖励 vs. 学习型奖励模型：对比分析

维度	学习型奖励模型	基于规则的奖励
奖励信号来源	通过训练数据学习（如人类偏好）	直接绑定任务客观正确性（如数值、逻辑）
奖励博弈风险	高（模型可能“投其所好”）	低（信号与目标严格对齐）
计算成本	需额外训练奖励模型	无需训练，直接通过规则计算
适用场景	开放式任务（如文本生成、创意设计）	答案可明确验证的任务（如推理、编程）

5、汇总

字节跳动与清华大学等机构合作开源DAPO（解耦剪辑与动态采样策略优化）算法及大规模LLM强化学习系统，针对现有RL系统不可复现问题，引入Clip-Higher、Dynamic Sampling、Token-Level Policy Gradient Loss、Overlong Reward Shaping四大关键技术，基于Qwen2.5-32B模型在AIME 2024数学竞赛中达到50分准确率，仅用DeepSeek-R1-Zero-Qwen-32B50%训练步骤，同时开源训练代码（基于verl框架）和精心处理的DAPO-Math-17K数据集，提升领域研究的可复现性。

一、项目背景与目标

领域挑战：
- 现有LLM推理模型（如OpenAI o1、DeepSeek R1）依赖大规模强化学习（RL）实现复杂推理，但核心训练细节闭源，社区难以复现结果。
- 基线算法（如GRPO）在长链式思维（CoT）场景中存在熵崩塌、奖励噪声、训练不稳定等问题，导致性能低下（如GRPO在AIME仅30分）。
核心目标：
- 开源可复现的大规模LLM RL系统，提供工业级训练方案。
- 提出DAPO算法，解决长CoT场景下的RL优化难题。

二、DAPO算法与关键技术

技术名称	核心作用	实现细节	效果
Clip-Higher	解耦高低剪辑范围，促进低概率token探索	- 分离剪辑参数为(\varepsilon_{low})（0.2）和(\varepsilon_{high})（0.28） - 允许低概率token概率提升空间更大	- 策略熵提升，生成多样性增加 - AIME准确率从基线30%提升至40%+
Dynamic Sampling	过滤无效梯度样本，稳定训练效率	- 丢弃准确率为0或1的样本，保留有效梯度 - 动态采样直至批次填满	- 收敛速度提升，相同性能所需步骤减少 - 训练时间未显著增加，但效率更高
Token-Level Policy Gradient Loss	按token加权损失，优化长序列训练	- 按token数量加权损失，而非按样本平均 - 惩罚长序列中的低质量模式（如重复、乱码）	- 响应长度增长更健康 - 训练稳定性提升
Overlong Reward Shaping	软惩罚过长响应，减少奖励噪声	- 对超过最大长度的响应分阶段惩罚 - (L_{max}=20480) tokens，缓冲区间(L_{cache}=4096)	- 训练稳定性显著提升 - AIME准确率波动减小

提出 Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO)，包含四大关键技术：

Clip-Higher
• 问题：传统PPO/GRPO的上下剪裁对称限制（如ε=0.2）导致低概率token难以提升，引发熵崩溃（生成样本同质化）。

• 方案：解耦上下剪裁范围（如ε_low=0.2，ε_high=0.28），允许低概率token有更大提升空间，提升多样性（图2b熵增加，图3a概率分布更均衡）。
Dynamic Sampling
• 问题：当某组样本全对/全错时，优势函数为零，梯度消失，训练效率下降。

• 方案：动态过滤掉全对/全错的提示，仅保留部分正确样本，确保批次内有效梯度信号（图3b减少无效样本，图6加速收敛）。
Token-Level Policy Gradient Loss
• 问题：GRPO的样本级损失平均导致长序列token贡献被稀释，难以学习有效推理模式。

• 方案：改为Token级损失计算，按总token数平均，平衡长短序列影响，提升稳定性（图4a/b长度增长更健康）。
Overlong Reward Shaping
• 问题：过长响应的截断惩罚（如直接-1）引入噪声，干扰有效推理步骤的奖励。

• 方案：采用软惩罚（公式13），根据超长程度逐步增加惩罚，并过滤截断样本的损失（图5训练更稳定）。·

三、开源内容与技术栈

代码与框架：
- 基于verl框架（https://github.com/volcengine/verl），实现DAPO算法及训练流程。
- 包含策略优化、动态采样、奖励塑形等模块的完整实现。
数据集：
- DAPO-Math-17K：
  - 来源：爬取AoPS网站及竞赛官网，人工标注清洗。
  - 处理：将答案统一为整数格式（如将(\frac{a+\sqrt{b}}{c})转换为(a+b+c)），便于规则奖励计算。
  - 规模：17K条数学问题-整数答案对。
项目资源：
- 项目页：https://dapo-sia.github.io/，提供代码、数据集下载及文档。

四、实验结果与性能对比

核心指标：
- 模型：Qwen2.5-32B（预训练基线）。
- 任务：AIME 2024数学竞赛（15题，每题7分，满分105分）。
- 结果：
  - DAPO：50分（avg@32），训练步骤仅需5000步。
  - DeepSeek-R1-Zero-Qwen-32B：47分，需10000+训练步骤。
关键对比：

指标 DAPO DeepSeek-R1-Zero-Qwen-32B 提升幅度
准确率 50% 47% +3分
训练步骤 5000步 10000+步 -50%
收敛效率快速稳定较慢且波动大 -
消融实验：
- 单一技术贡献：Clip-Higher提升约5分，Dynamic Sampling提升约3分，Token-Level Loss提升约2分，Overlong Reward Shaping提升约2分。
- 组合使用时，总提升达20分（从基线30分至50分）。

指标	DAPO	DeepSeek-R1-Zero-Qwen-32B	提升幅度
准确率	50%	47%	+3分
训练步骤	5000步	10000+步	-50%
收敛效率	快速稳定	较慢且波动大	-

五、数据集处理与训练细节

数据转换流程：
- 原始答案格式（表达式、公式）→ LLM重写问题→ 目标答案转为整数→ 人工验证。
- 示例：原答案(\frac{a+\sqrt{b}}{c})转换为(a+b+c)，对应问题调整为求解参数和。
训练配置：
- 优化器：AdamW，学习率(1×10^{-6})，线性热身20步。
- 批次设置：prompt batch size=512，每prompt采样16个响应，mini-batch size=512。
- 最大生成长度：20480 tokens，软惩罚缓冲区间4096 tokens。

关键问题

1. DAPO算法的核心创新点是什么？

答案：DAPO提出四大关键技术：

Clip-Higher：解耦高低剪辑范围，提升策略多样性，避免熵崩塌；
Dynamic Sampling：过滤无效梯度样本，提高训练效率和稳定性；
Token-Level Policy Gradient Loss：按token加权损失，优化长序列推理；
Overlong Reward Shaping：软惩罚过长响应，减少奖励噪声。

2. DAPO开源了哪些内容？对领域研究有何影响？

答案：开源内容包括：

算法代码：基于verl框架的完整训练实现；
数据集：DAPO-Math-17K（17K条数学问题-整数答案对）；
项目资源：训练超参数、评估脚本及项目页文档。
影响：提供可复现的工业级RL解决方案，降低大规模LLM推理研究门槛，促进社区协作与技术迭代。

3. DAPO在AIME 2024中的性能表现如何？相比之前的模型有何优势？

答案：

性能：基于Qwen2.5-32B模型，在AIME 2024中达到50分准确率（avg@32），超过DeepSeek-R1-Zero-Qwen-32B的47分。
效率：仅用50%训练步骤（5000步 vs. 10000+步），收敛速度更快且稳定性更高。

参考:

详细原理参考：https://zhuanlan.zhihu.com/p/696537369
https://air.tsinghua.edu.cn/info/1007/2401.htm
https://blog.csdn.net/weixin_44966641/article/details/147636661
https://zhuanlan.zhihu.com/p/31085938827

查看全文

http://www.dtcms.com/a/199133.html