当前位置: 首页 > news >正文

集合通信算法总结

一. all2all 通信原语

1. H卡N-1步算法,通过算法消除多打1。

2. N卡NCCL PXN算法

      核心是借轨+源聚合。

3. DeepEP 算法

   底层使用NVSHMEM 直接接口, 使用IBGDA,可以将控制面bypass cpu,原始版本支持IB,修改版本可以支持RoCE。

   借轨的思路和N卡PXN类似, 只不过是方向相反,RoCE发到目的同号卡, 目的同号卡再转发到机内的其它节点。https://zhuanlan.zhihu.com/p/1890067712996270654

二.allgather、reducescatter、allreduce通信原语

(1)通信域大部分是单独机内或者单独机间(同号卡), 比如TP、SP、CP机内,部分DP只有机间。

(2)通信域会有机内+机间情况。结论:机间Ring+机内mesh方案性能最优, 可以正好利用nvlink与Roce带宽比是8:1的关系。

三. pp通信原语

有1F1B,zero-bubble流水线overlap方案,目前zero-bubble用得最多。

1F1B:

zero-bubble, F、B、W三阶段切分。

http://www.dtcms.com/a/392043.html

相关文章:

  • AutoDL四周年 ,学会使用AutoDL
  • nginx如果启动失败怎么办?
  • linux使用gunzip来解压.gz文件
  • 硬件(十五)LCD
  • B3clf: 最新的精准预测药物血脑屏障透过能力的开源app
  • 第八章 惊喜10 分享+
  • SMMU 软件指南
  • [x-cmd] Windows 安装和使用 x-cmd 的方法
  • 17.渗透-.Linux基础命令(九)-Linux权限管理(chmod修改文件权限)
  • 测量交流电压,测量直流电压,兼容,ADC采样转换计算有效值
  • 红黑树封装实现map set
  • EMQX和MQTTX的安装
  • AI 大模型入门 四:检索增强生成(RAG),自动生成精准用例!
  • EDR与MITRE ATTCK 详解
  • 特征值和特征向量
  • Gridview:让 HPC 作业管理真正“看得见、点得着、跑得快”
  • C++/初识
  • 进一步理解自适应卡尔曼滤波(AKF)
  • 反馈循环的跨领域智慧:从控制工程到Pix2Pix
  • AI智能体如何开发工作流及注意事项
  • 电视插座工程量计算-图形识别秒计量
  • 1.1 进程与内存知识点总结
  • 深度学习-神经网络(下篇)
  • 检查 Nginx 是否启动的几种方法
  • CSS 创建漂亮的文字肖像
  • 37、RAG系统架构与实现:知识增强型AI的完整构建
  • 当贝桌面 4.1.6 | 支持文件快传(电脑传到TV),内存清理,海量4K壁纸,自定义应用和功能
  • 30-39、大模型实战构建完整技术手册:从0到1的工程化实现体系
  • 【Python】Tkinter库实现GUI界面计算器
  • 茶叶在线销售与文化交流平台的设计与实现(java)