当前位置: 首页 > news >正文

dapo:开源大规模llm强化学习系统的突破与实现

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

✨ 1. dapo概述:开源llm强化学习系统的重要突破

dapo(decoupled clip and dynamic sampling policy optimization,解耦剪辑与动态采样策略优化)是由清华大学智能产业研究院(air)字节跳动联合实验室sia-lab在2025年3月开源发布的一个大规模大型语言模型(llm)强化学习系统。这一系统在纯强化学习(rl)端的比较中,超越了deepseed r1模型所使用的grpo(group relative policy optimization)算法,取得了新的sota(state-of-the-art)结果

dapo的诞生源于一个重要背景:尽管openai和deepseek等机构通过大规模强化学习训练出了先进的推理模型(如openai的o1和deepseek的r1),但其核心训练算法与关键技术细节却仍不明朗,导致广大研究人员难以复现这些效果。dapo则致力于打破这种技术壁垒,完全开源了其算法设计、训练代码和数据集,为整个ai研究社区提供了一个完整、可复现的解决方案

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

往期文章推荐:

  • 20.eniac:世界上第一台通用电子计算机的传奇
  • 19.冯·诺依曼架构:现代计算机的基石与瓶颈
  • 18.密码破译机bombe:二战中破解enigma的传奇设备
  • 17.波兰密码破译机bomba:二战密码战的隐形功臣
  • 16.注意力机制:捕获长距离依赖关系的革命性技术
  • 15.康威生命游戏:零玩家游戏的元胞自动机奇迹
  • 14.OpenHands:开源AI软件开发代理平台的革命性突破
  • 13.NoCode-bench:自然语言驱动功能添加的评估新基准
  • 12.中文房间悖论:人工智能理解力的哲学拷问
  • 11.曼彻斯特Mark I:世界上第一台存储程序计算机的革命性创新
  • 10.AdaCoT:基于强化学习的帕累托最优自适应思维链触发机制
  • 9.GThinker多模态大模型:线索引导式反思的突破
  • 8.Auto-CoT:大型语言模型的自动化思维链提示技术
  • 7.传统概率信息检索模型:理论基础、演进与局限
  • 6.Poisson分布:稀有事件建模的理论基石与演进
  • 5.Jina Embeddings:高性能多模态向量模型的演进之路
  • 4.GitHub Copilot:AI编程助手的架构演进与真实世界影响
  • 3.SWE-bench:真实世界软件工程任务的“试金石”
  • 2.StarCoder:开源代码大语言模型的里程碑
  • 1.EvalPlus:代码生成大模型的“严格考官”——基于测试增强的评估框架

⚙️ 2. 技术背景与研发动机:为什么需要dapo?

2.1 现有技术的局限性

尽管grpo等算法能够提升llm的强化学习效率,但其在长链式思维(cot)场景中面临着几大关键问题:

  • 熵崩溃(entropy collapse):策略的熵迅速下降,探索不足
  • 奖励噪声(reward noise):特别是过长响应截断引入的噪声
  • 训练不稳定:梯度信号有效性低,收敛困难

许多研究团队在尝试复现deepseek的结果时,都遇到了类似的难题,这表明工业级、大规模且可重现的强化学习系统需要关键训练细节

2.2 dapo的使命与目标

dapo的开发旨在解决上述挑战,其核心目标包括:

  • 提供一个开源可复现的大规模llm rl系统
  • 提出新型算法,解决长cot场景下的rl优化难题
  • 数学推理等复杂任务上实现卓越性能

🔧 3. dapo的核心技术:四大创新点解析

dapo通过四项关键技术革新,解决了大规模rl训练中的核心难题。

3.1 clip-higher:解耦高低剪辑范围,促进探索与利用的平衡

  • 问题:传统ppo/grpo的固定剪裁范围(如ε=0.2)限制了低概率token的探索,导致策略快速收敛(熵崩溃),生成样本同质化。
  • 解决方案:将上下剪裁阈值解耦ε_low=0.2(抑制高概率token的过度利用)和ε_high=0.28(放宽低概率token的探索限制)。
  • 效果:模型生成多样性提升,熵值稳定,aime准确率从基线30%提升至40%+。

3.2 dynamic sampling:动态过滤无效样本,提升训练效率

  • 问题:当所有样本奖励相同(如全正确或全错误),优势函数为零,梯度信号消失(zero advantage),训练效率下降。
  • 解决方案预采样时过滤掉奖励为0或1的样本,仅保留梯度有效的样本填充批次。
  • 效果收敛速度提升,相同性能所需步骤减少,训练时间未显著增加但效率更高。

3.3 token-level policy gradient loss:精准优化长序列

  • 问题:传统grpo的样本级损失平均导致长序列token梯度稀释,难以捕捉关键推理步骤,且无法有效惩罚长序列中的低质量模式(如重复、乱码)。
  • 解决方案按token计算损失,加权求和(而非样本平均),强化长序列中的关键token学习。
  • 效果:训练稳定性提升,响应长度增长更健康

3.4 overlong reward shaping:长度感知的奖励修正,减少噪声

  • 问题:过长响应的截断惩罚(如直接-1)引入噪声,干扰有效推理步骤的奖励(正确推理因超长被误判)。
  • 解决方案:采用软惩罚策略,根据超长程度逐步增加惩罚,并过滤截断样本的损失。定义一个惩罚区间,响应越长,受到的惩罚越大。
    rlength(y)={0,∣y∣≤lmax−lcache(lmax−lcache)−∣y∣lcache,lmax−lcache<∣y∣≤lmax−1,∣y∣>lmaxr_{\text{length}}(y) = \begin{cases} 0, & |y| \leq l_{\text{max}} - l_{\text{cache}} \\ \frac{(l_{\text{max}} - l_{\text{cache}}) - |y|}{l_{\text{cache}}}, & l_{\text{max}} - l_{\text{cache}} < |y| \leq l_{\text{max}} \\ -1, & |y| > l_{\text{max}} \end{cases} rlength(y)=0,lcache(lmaxlcache)y,1,ylmaxlcachelmaxlcache<ylmaxy>lmax
    其中 l_max = 20480 tokens,l_cache = 4096
  • 效果训练稳定性显著提升,aime准确率波动减小。

📊 4. 实验效果与性能表现

dapo系统在数学推理任务上进行了全面验证,取得了令人瞩目的成果。

4.1 aime 2024基准测试结果

在被誉为数学竞赛"奥林匹克"的aime 2024测试中:

  • 使用qwen2.5-32b基础模型的dapo系统达到了50分的成绩
  • 超越了之前业界最佳的deepseek-r1-zero-qwen-32b的47分表现
  • 仅用了后者一半的训练时间

作为对比,使用grpo的qwen2.5-32b模型在aime 2024上只能获得30分。

4.2 各技术组件的贡献分析

研究团队通过详细的对比实验,验证了各项技术的有效性:

表:dapo中各技术对aime性能的贡献

技术组件aime 2024 分数性能提升
基础grpo30分-
+ 超长过滤(overlong filtering)36分+6分
+ clip-higher38分+2分
+ 软性超长惩罚(soft punishment)41分+3分
+ token级别损失(token-level loss)42分+1分
完整dapo系统50分+8分

4.3 训练动态与模型行为演化

在训练过程中,研究团队观察到一些有趣的现象:

  • 响应长度变化:生成长度逐渐增加,为模型提供更大探索空间,允许采样更复杂的推理行为。
  • 奖励动态:奖励增加趋势相对稳定,表明语言模型可以稳健地拟合训练集的分布。
  • 熵值维持:dapo通过clip-higher策略有效解决了熵崩塌问题,保持熵的缓慢上升趋势有助于提升模型性能。
  • 推理模式演化:策略模型的推理模式会随着时间动态演变。rl算法不仅会强化有助于正确解决问题的现有推理模式,还会逐渐催生原本不存在的全新推理模式。例如,模型后期自发出现了"反思和修正"的能力,如产生"等等,让我重新考虑一下"这样的表述。

🌐 5. 系统设计与开源生态

dapo致力于构建一个完整、可复现的开源生态系统

5.1 训练框架与配置

  • 基础框架:基于verl开源框架构建
  • 优化器:adamw,学习率设定为1×10⁻⁶,配备线性预热机制
  • 批次设置:每批训练包含512个问题,每个问题生成16个不同回答
  • 基础模型:qwen2.5-32b

5.2 数据集:dapo-math-17k

研究团队特别开发了一个包含17000个数学问题的训练数据集,名为dapo-math-17k。为了确保训练过程的准确性,他们将所有答案都转换成了整数形式,这样既便于计算机处理,又能确保评估的准确性。

5.3 开源资源

dapo项目完全开源,提供了丰富的资源:

  • 项目主页:https://dapo-sia.github.io/
  • 论文地址:https://arxiv.org/abs/2503.14476
  • 代码仓库:https://github.com/bytedtsinghua-sia/dapo
  • 数据集:https://huggingface.co/datasets/bytedtsinghua-sia/dapo-math-17k

🔮 6. 意义与影响:dapo对ai研究社区的贡献

dapo系统的推出具有多重重要意义:

  1. 技术透明度:打破了顶尖ai技术被严密保护的现状,提供了完整、可复现的解决方案
  2. 性能标杆:在数学推理任务上设立了新的性能标杆
  3. 系统优化:针对大规模rl训练中的实际问题提供了有效解决方案
  4. 社区推动:为整个ai研究社区提供了宝贵的资源和工具,可能激发更多的创新和突破

📈 7. 局限性未来展望

尽管dapo取得了显著成功,但研究团队也坦诚地指出了当前技术的局限性:

  • 任务范围:dapo系统主要在数学推理任务上进行了验证,在其他类型的复杂推理任务(如代码生成、科学推理)上的表现还需要进一步验证。
  • 泛化能力:虽然系统在aime测试中表现优异,但这种能力是否能够泛化到更广泛的现实世界问题中,仍然是一个开放的研究问题。

未来工作可能包括:

  • 将dapo扩展到更多元化的任务领域
  • 探索与其他先进模型架构的结合
  • 进一步优化训练效率和稳定性
  • 研究更好的奖励塑形策略

💎 结论

dapo代表了ai推理能力研究的一个重要里程碑。它证明了通过精心设计的强化学习技术,确实可以显著提升语言模型的推理能力,让ai在复杂的数学和逻辑问题上达到接近人类专家的水平。

这项研究不仅在于其优异的性能表现,更在于其开源精神和对技术透明度的承诺。在当前大多数顶尖ai技术都被严密保护的情况下,dapo为整个ai研究社区提供了一个完整、可复现的解决方案,包括算法细节、训练代码和精心整理的数据集。这种做法可能会激发更多的创新和突破,加速整个领域的发展进程。

随着技术的不断成熟和普及,这种强大的推理能力有望以各种形式进入我们的日常生活,从智能教育助手专业咨询服务,都可能因为这种技术而变得更加智能和有效。

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

http://www.dtcms.com/a/351229.html

相关文章:

  • AI提示词30天入门培训计划
  • STM32物联网项目---ESP8266微信小程序结合OneNET平台MQTT实现STM32单片机远程智能控制---MQTT篇(三)
  • 【密集目标检测】停车场车辆(车位)识别数据集:12k+图像,yolo标注
  • 从GPT-5发布来分析LLM大模型幻觉收敛(一)
  • 广告网站与Coze智能体集成
  • 节能率的图表组件的选择
  • MT** 时间指标全景图:从可靠性到可维护性的度量体系
  • PEFT 模型解析(59)
  • Linux 详谈库制作与原理
  • python中生成器
  • 解决qt5.9.4和2015配置xilinx上位机报错问题
  • 学习游戏制作记录(保存装备物品技能树和删除存档文件)8.26
  • 【软考论文】论静态测试方法及其应用
  • 系统设计中的幂等性
  • QPSK调制解调通信仿真程序调试与分析
  • UbuntuV24.04安装mpdecimal库(libmpdec),从源码编译
  • 广告推荐模型3:域感知因子分解机(Field-aware Factorization Machine, FFM)
  • 机器人 - 无人机基础(6) - 状态估计(ing)
  • 1 线性模型
  • 支持向量机(SVM)
  • Java 大视界 -- Java 大数据机器学习模型在金融市场波动预测与资产配置动态调整中的应用
  • 网站开发用什么语言好
  • CentOS扩容非LVM分区
  • PortSwigger靶场之Blind SQL injection with out-of-band interaction通关秘籍
  • Redis--2
  • 在 TencentOS 3 上部署 OpenTenBase:从底层原理到生产级实践的深度指南
  • DBeaver下载安装使用
  • 支持向量机(SVM)算法总结
  • 大数据毕业设计选题:基于大数据的用户贷款行为数据分析系统Spark SQL核心技术
  • 迷你版Shell:源码详解与行为解析