当前位置: 首页 > news >正文

SAPO去中心化训练:多节点协作让LLM训练效率提升94%

Swarm sAmpling Policy Optimization,简称SAPO,这个名字听起来有点学术,但它解决的问题很实际。大规模语言模型的后训练一直是个让人头疼的事情——要么资源不够,要么效率太低。SAPO提出了一种去中心化的异步RL方案,让各个计算节点之间可以互相分享rollouts,避开了传统并行化训练的各种瓶颈。

论文的实验结果。在成千上万个社区节点的测试中,这套方法能带来94%的回报提升。

核心机制

整个系统的设计思路其实不复杂。想象一下有N个节点组成的网络,每个节点都在不停地生成和交换rollouts。节点上跑着可验证的任务数据集,包含标准答案和验证逻辑,语言模型会针对每个任务输出多个候选答案。

关键在于rollouts的兼容性——不同节点之间必须能够理解彼此的输出格式。数据集内容、答案数量这些都可以动态调整,甚至可以控制提示的复杂度来调节任务难度。

还有个很有趣的设定:节点不一定非要参与训练。你可以让人类专家或者其他非传统的生成器加入进来,只要输出格式兼容就行。

训练流程看起来是这样的:每轮训练中,节点先采样一批任务,生成对应的rollouts,然后把其中一部分(连同元数据和标准答案)分享给整个网络。

各个节点收到这些分享后,会把自己的rollouts和别人的混合起来构建训练集。这里的灵活性很高,节点可以自己决定怎么筛选和组合这些数据。训练集构建完成后,用本地的奖励模型计算分数,再用PPO或GRPO这类策略梯度方法更新模型。整个过程循环往复。

实验设计和效果分析

研究团队选择了ReasoningGYM作为测试平台,这个数据集能够无限生成代数、逻辑、图推理等领域的验证题目。实验中设定了九个不同的专业方向,每个智能体每轮在每个方向上都会拿到一道题,然后生成8个候选答案。

策略更新用的是GRPO,没有加KL惩罚项。奖励机制比较直接:ReasoningGYM自带的规则验证器,答对得1分,答错得0分。有个细节值得注意——他们没有专门设置格式奖励,因为正确的格式会在节点间的分享过程中自然传播。

整个实验跑在GenRL框架上,这是个专门为去中心化多智能体RL设计的平台,和ReasoningGYM集成得不错。

对比实验的设计很清楚:标准RL微调(不分享)vs SAPO的几种配置。在保持总训练样本数不变的前提下,他们测试了不同的本地/外部rollouts混合比例。

结果显示,4本地+4外部的配置效果最好,累计奖励最高,2/6和6/2的配置次之。和基线相比,4/4配置的提升幅度达到94%,而且在各个训练轮次中都能保持更高的平均奖励。

但是过度依赖外部rollouts也会出问题。2/6的配置就出现了明显的震荡,性能反而下降了。分析原因,主要是太依赖其他(可能较弱的)节点输出,导致共享池的质量被稀释。

所以平衡很重要。适度的经验分享既能让好的想法在网络中传播,又不会因为过度依赖外部数据而影响稳定性。研究者用了个很形象的词:“Aha moments”——那种突然想通某个解法的时刻,确实能够在群体中扩散。

大规模实测

理论归理论,真正的考验在大规模异构环境下。研究团队搞了个包含数千个社区节点的演示,让这些节点用ReasoningGYM任务接受统一评估。

SAPO对中等规模模型的帮助更明显。比如Qwen2.5(0.5B参数),在175轮训练后的表现明显超过单机训练。但对于Qwen3(0.6B参数)这样的大模型,改善就不太明显了。

这个现象其实也好理解——中等容量的模型更容易从集体经验中受益,而大模型本身能力已经比较强,外部rollouts的价值相对有限。

还有个技术细节:实验中的rollouts是均匀随机采样的,没有做特别的质量筛选。这意味着大量低价值样本会拖累整体效果。如果能设计更好的采样策略,说不定连大模型也能从中获益。

这个研究提出的SAPO方法,在去中心化训练这个方向上确实开了个好头。虽然还有一些细节需要完善,但基本思路值得关注。

论文地址:

https://avoid.overfit.cn/post/7e17063b4d354b1c80a7b3e933dded91

http://www.dtcms.com/a/390879.html

相关文章:

  • Stm32 IAP 升级
  • 5G标准学习笔记17------ MDT(Minimization of Drive Tests)路测最小化
  • [Dify] 构建“流程型表单问答”系统:逐步提问逻辑实现
  • 从RAW到JPG到BMP:工业视觉图像格式怎么选?
  • Linux系统Rsync+sersync 实现数据同步
  • 【13/20】缓存与性能优化:Redis 在 Express 中的整合,实现用户数据缓存
  • 如何防止电脑长时间运行过热?定时关机是第一道防线
  • 开源监控利器Prometheus+Grafana在银河麒麟操作系统的落地实践
  • 小程序移动端设计UI(一)预约小程序——东方仙盟练气期
  • Android13 命令启用WLAN详细日志分析
  • 临床AI产品化全流程研究:环境聆听、在环校验与可追溯系统的多技术融合实践(中)
  • 深度解读昇腾CANN动态Shape图调度加速技术
  • linux系统使用ImageMagick注意,只能使用convert命令
  • [Windows] 搜狗拼音一键净化
  • Go语言25个关键字全解析
  • 图像滤波常用总结
  • Go语言设计原则与设计模式
  • (LoRA深度解析)LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS论文精读(逐段解析)
  • 第十四届蓝桥杯青少组C++选拔赛[2022.11.27]第二部分编程题(4、找路线)
  • 知识图谱对自然语言处理深层语义分析的影响与启示:结构化研究报告
  • 架构师成长之路-缓存二
  • 正点原子小智BOX0/BOX2 产品使用视频表情功能
  • 鸿蒙NEXT分布式文件系统:开启跨设备文件访问新时代
  • 【主机初始化工作】
  • Ubuntu20.04仿真 | iris四旋翼添加livox mid360激光雷达
  • Linux进程终止
  • Go如何重塑现代软件开发的技术基因
  • 设计模式(C++)详解—外观模式(2)
  • 【ubuntu24.04】apt update失败 过期的签名清理
  • Go 语言常用算法库教学与实践指南