当前位置: 首页 > news >正文

迎接DeepSeek开源周[Kimi先开为敬]发布开源最新优化技术

月之暗面通过系统分析和改进,成功地将 Muon 应用于 3B/16B 参数的 MoE 模型训练,训练了 5.7 万亿个令牌。结果表明,Muon 可以有效地替代 AdamW 作为大规模 LLM 训练的标准优化器,在训练效率和模型性能方面具有显著优势。通过开源实现、Moonlight 模型和中间训练检查点,论文旨在促进可扩展优化技术的研究,并加速 LLMs 训练方法的发展。
代码 & 实现:
https://github.com/MoonshotAI/Moonlight
全系列模型 (预训练, 指令微调 & 中间检查点):
https://huggingface.co/moonshotai
技术报告 Paper:

https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf
具体来说,

  1. 添加权重衰减: 通过在Muon中引入标准的AdamW权重衰减机制,解决了模型参数和层输出RMS增长过大的问题。
  2. 调整参数更新尺度: 通过调整Muon的参数更新规则,确保在不同形状的矩阵之间保持一致的更新RMS,从而提高训练稳定性。
  3. 分布式实现: 开发了基于ZeRO-1风格的Muon分布式版本,实现内存优化和通信效率的提升。

实验设计

  1. 模型架构: 使用类似于Deepseek-V3-Small的模型架构,并对其进行了一些小的修改,以适应Moonlight模型的需求。
  2. 数据集: 使用Kimi团队提供的5.7万亿token的数据集进行预训练。
  3. 训练过程: 训练分为几个阶段,逐步增加学习率和批量大小,并在训练过程中使用不同的数据质量进行优化。

结果与分析

1.一致性更新 RMS:实验表明,调整后的学习率方法(Adjusted LR)比基线方法(Baseline)和仅保持与 AdamW 一致 RMS 的方法(Update Norm)表现更好。
2.扩展性验证:通过扩展法实验,Muon 在计算最优设置下仅需约 52% 的训练 FLOPs 即可达到与 AdamW 相当的性能在这里插入图片描述。[不得了啊!]
3.预训练性能:Moonlight 模型在 1.2T tokens 时的性能显著优于使用 AdamW 的 Moonlight-A 模型,证明了 Muon 的扩展有效性。
4.微调性能:在监督微调阶段,Muon 预训练和微调的模型表现优于仅使用 AdamW 预训练和微调的模型,但在微调阶段使用不同的优化器时,Muon 的优势不明显。


文章转载自:

http://sMTM6ciG.ryxgk.cn
http://UtId43kq.ryxgk.cn
http://USxi0Frz.ryxgk.cn
http://Tl3VnRfH.ryxgk.cn
http://nN5KMRZD.ryxgk.cn
http://ycgVjqFU.ryxgk.cn
http://jaHwL0id.ryxgk.cn
http://hQlbnKZM.ryxgk.cn
http://YavW8TKv.ryxgk.cn
http://xK7JSUgR.ryxgk.cn
http://hADMZCNd.ryxgk.cn
http://1qaOAjSD.ryxgk.cn
http://dtL5LTi7.ryxgk.cn
http://jpRh1AQw.ryxgk.cn
http://zZcNVzpP.ryxgk.cn
http://XgrbhDba.ryxgk.cn
http://SyWzh1IR.ryxgk.cn
http://E8IeTpJo.ryxgk.cn
http://KIL3QEzg.ryxgk.cn
http://wp53Ixxn.ryxgk.cn
http://G6sb9nH9.ryxgk.cn
http://W2fxbzWW.ryxgk.cn
http://lplo0ZMJ.ryxgk.cn
http://nQ85UAQQ.ryxgk.cn
http://3iSm0Yn6.ryxgk.cn
http://NC5DgxOl.ryxgk.cn
http://OGnIlsWP.ryxgk.cn
http://ppNVlnHF.ryxgk.cn
http://jPR9Lhzf.ryxgk.cn
http://JT0oiaYl.ryxgk.cn
http://www.dtcms.com/a/33439.html

相关文章:

  • XML(eXtensible Markup Language)
  • 在Dify中实现联网检索功能(模拟DeepSeek)
  • 计算机组成原理第四——指令
  • 人工智能、机器学习、深度学习和大语言模型之间的关系
  • C语言基础要素:安装 Visual Studio 2022
  • 代码随想录day19
  • 透彻理解:方差、协方差、相关系数、协方差矩阵及其应用
  • springBoot统一响应1.0版本
  • DataWhale组队学习 wow-agent task4
  • 四、综合案例(Unity2D)
  • 浏览器下载vue.js.devtools,谷歌浏览器和edg浏览器
  • DeepSeek学习教程 从入门到精通pdf下载:快速上手 DeepSeek
  • Spring MVC配置文件
  • 【Linux】Linux线程互斥与同步(接口篇)
  • Spring 容器
  • 【三十四周】文献阅读:DeepPose: 通过深度神经网络实现人类姿态估计
  • 自学网络安全(黑客技术)2025年 —100天学习计划,网络安全零基础入门到精通教程建议收藏!
  • Python 函数(传递任意数量的实参)
  • AI智算-k8s+SGLang实战:DeepSeek-r1:671b满血版多机多卡私有化部署全攻略
  • Vue02
  • hot100_300. 最长递增子序列
  • 使用FastAPI进行可视化部署
  • 应用层协议HTTP
  • 理解 预训练、微调、分布式训练
  • EWM 自动补充库存
  • 《操作系统 - 清华大学》8 -4:进程管理:进程控制结构
  • 为什么要学排序?
  • rust学习笔记5-所有权机制
  • C/C++数组的字符串与字符数组习题
  • 【蓝桥杯】第十五届省赛大学真题组真题解析