当前位置: 首页 > news >正文

DeepSeek V3 并行训练、推理优化点(一)

训练优化1, FP8计算

DeepSeek-V3在训练过程中统一使用E4M3格式,并通过细粒度的per-tile(1x128)和per-group(128x128)量化来降低误差。

FP8的好处还体现在节省显存上(尤其是激活值)。此外,DeepSeek-V3使用BF16来保存优化器状态,以及对部分操作进行选择性重计算(例如RMSNorm, MLA Up-Proj, SwiGLU)。

优化点2 模型结构

MOE+MLA

训练优化2 DeepSeekV3 数据并行+专家并行 (DP+EP)

DeepSeek-V3使用64路的专家并行,16路的流水线并行,以及数据并行(ZeRO1)。
我们再来回顾一下Zero1:对优化器的状态进行分片
Zero2: 对优化器状态+梯度进行分片
Zero3: 对优化器状态+梯度+参数进行分片
对于LLama-7B模型来说:
模型参数占用的显存:14GB
优化器状态占用的显存:84GB
因为使用float32存储,防止下溢,所以m,v,w = 1423 = 84GB
梯度占用的显存:14GB
这里的优化器状态占用的显存是很大的,所以需要开启Zero1

大规模跨节点专家并行:Expert Parallelism / EP
EP 使得 batch size 大大增加,从而提高 GPU 矩阵乘法的效率,提高吞吐。其次 EP 使得专家分散在不同的 GPU 上,每个 GPU 只需要计算很少的专家(因此更少的访存需求),从而降低延迟。

专家并行会引入all2all通信,由于每个token会激活8个专家,这导致跨节点的all2all通信开销成为主要的系统瓶颈。

在算法层面,DeepSeek-V3使用分组路由的方式,限制每个token只会激活4个节点上的专家从而减半跨节点的通信流量。在系统层面,将节点间通信和节点内通信进行流水,最大化使用网络带宽和NVLink带宽。

多机多卡的专家并行,会带来通信开销,所以采取双batch隐藏通信开销。
在这里插入图片描述
黄色的前向计算,绿色的后向计算。

ATTN 和MLP是主要的计算过程。
前向过程:
ATTN-> Combine(经过MOE专家计算,通信过程)-> Dispatch(分发到不同的GPU,通信过程) -> MLP

推理

在这里插入图片描述
MoE节省flops的好处主要体现在计算密集的prefill阶段,而在访存密集的decode阶段,MoE巨大的参数量然而会带来更加昂贵的数据搬移开销。哪怕能解决访存密集的问题,MoE参数消耗如此多昂贵的HBM空间,这可能也不是一个相当划算的决定。

DeepSeek-V3采取PD分离的方式,分别应对prefilldecode两阶段的挑战。

在prefill阶段,attention模块采用4路张量并行+8路数据并行,moe模块采用32路专家并行。这样并行的目的是在满足首token时延的要求下,最大化系统吞吐。

在decode阶段,DeepSeek-V3采取320路专家并行(256个小专家+64个热点专家),有效降低解码时延,并缓解负载不均衡的问题。

为了填充all2all通信阶段的设备空闲时间,DeepSeek-V3采用NanoFlow中的双流推理策略,将不同micro-batch中的计算和通信任务并发执行,从而提高设备资源利用率。

相关文章:

  • Linux losetup循环设备
  • MySQL初阶 | 库的操作
  • 项目-苍穹外卖(二)增加用户+用户分页查询
  • 十三、OSG学习笔记-osgDB文件读写
  • .net 6.0 webapi支持 xml返回xml json返回json
  • Vue.js 与 Axios 实现音乐自由
  • 初阶数据结构(C语言实现)——4.2队列
  • C++和OpenGL实现3D游戏编程【连载24】——父物体和子物体之间的坐标转换
  • JavaWeb基础二(Servlet)
  • 项目上传到Gitee过程
  • Linux《基础开发工具(中)》
  • jenkins+ant+jmeter生成的测试报告空白
  • 选择排序算法OpenMP并行优化
  • 【编程题】7-5 堆中的路径
  • 理解C++模板库:依赖名
  • Dagger 2 系列(五)——进阶之@Scope 和 @Singleton
  • 《网络安全》中RSA加密算法的计算过程
  • Windows 图形显示驱动开发-WDDM 3.2-用户模式工作提交(三)
  • NFC标签读写开发指南
  • 《反脆弱》:从不确定性中获益的智慧✨
  • 上海古镇“长效”发展需要提高社会资本参与
  • 中外科研人员合作揭开固态电池短路成因
  • 淡出政治舞台?马斯克称将削减政治开支:已经做得够多了
  • 电影《哪吒之魔童闹海》延长上映至6月30日
  • 冒充现役军人、自称有中国兵工集团投资内幕,2人被刑拘
  • 马上评|房屋“注胶堵漏”骗局何以屡屡得逞