当前位置: 首页 > news >正文

DeepSpeed - 超大LLM分布式训练框架 ZeRO技术

 DeepSpeed是微软开发的开源训练框架,在大规模集群训练千亿、万亿规模参数的大模型,如MT-530B、BLOOM等。

1)ZeRO技术,在多GPU 缓存训练参数的方式抽象为3个等级,以适应不同LLM并行训练需求。

2)支持训练、推理、压缩、科学赋能等领域,推动从训练到部署的全栈方案。

3)适合拥有大规模GPU集群的机构。

1 并行训练方式

当前分布式训练主要的三种并行模式:数据并行、模型并行和流水线并行。

数据并行,每个 GPU 复制一份模型参数,适合模型规模足够小能放到单个 GPU的LLM场景。

模型并行,模型比较大,单个 GPU装不下整个模型。将模型每层分成若干份,每份分配一个 GPU。训练过程中正向和反向传播的数据使用All gather/All reduce进行数据交换,通信成本和群组中的计算节点 (GPU) 数量正相关。

流水线并行,将不同的 layer 分配给指定 GPU 进行计算,层与层之间的计算以流水线的方式进行重叠。流水线并行只需相互依赖的GPU进行点对点通讯传递activations,对通讯带宽的需求降到更低。流水并行需要相对稳定的通讯频率来确保效率,并行效率依赖各卡负载的手动调优。

2 ZeRO并行

ZeRO 的本质,是在数据并行的基础上,对冗余空间占用进行深度优化。ZeRO 有三个不同级别,分别对应对模型参数,梯度和优化器状态不同程度的分片。

ZeRO-1,仅分片优化器状态

ZeRO-2,分片优化器状态和梯度

ZeRO-3,分片模型参数、优化器状态和梯度。

可见,随着划分等级的提升,虽然在GPU显存有限情况下可以容纳更大模型,但训练过程中GPU之间交换数据量也在增加,ZeRO-1仅需要交换优化器状态、ZeRO-2需要交换优化器状态和梯度,ZeRO-3则需要交换优化器状态、梯度和和激活状态Activation。

reference

---

DeepSeepd

https://github.com/deepspeedai/DeepSpeed

GitHub上4大开源LLM微调框架对比,零基础小白收藏这一篇就可以了!!

https://zhuanlan.zhihu.com/p/1923827697534112491

http://www.dtcms.com/a/311985.html

相关文章:

  • Python day32
  • 力扣 二叉树遍历 中序/前序/后序(递归和迭代版)
  • dbt中多源数据的处理
  • 混合嵌入与置信度增强:新一代RAG技术如何提升LLM性能
  • 1.6 vue 监听
  • JavaScript 原始值与引用值
  • SQL语言学习(group by,having)
  • PyTorch 中 Tensor 统计学函数及相关概念
  • 基于单片机一氧化碳CO检测/煤气防中毒检测报警系统
  • OneCode 3.0智能分页拦截器深度解析:从拦截机制到性能优化
  • 轨道追逃博弈仿真
  • 输电线路建模与电力负荷特性详解(含等值模型与曲线分析)
  • Vue 详情模块 4
  • SQL语言学习(JOIN)
  • Orange的运维学习日记--25.Linux文件系统基本管理
  • 使用xshell连接远程腾讯云服务器,报错:Xshell Socket error Event: 32 Error: 10053
  • 智能图书馆管理系统开发实战系列(五):前后端集成 - koffi调用与接口设计
  • 用resmon搜索某文件被未知程序占用而无法删除
  • 第15届蓝桥杯Python青少组_省赛_中/高级组2024年8月真题
  • Java,八股,cv,算法——双非研0四修之路day23
  • SpringBoot 信用卡检测、OpenAI gym、OCR结合、DICOM图形处理、知识图谱、农业害虫识别实战
  • 博客|基于Springboot的个人博客系统设计与实现(源码+数据库+文档)
  • 占道经营识别漏检率↓76%:陌讯动态场景适配算法实战解析
  • 区分「尊重」和「顺从」
  • FastAPI入门:响应模型
  • 如何分析Linux内存性能问题
  • Windows字体simsum.ttf的安装与Python路径设置指南
  • junit中@InjectMocks作用详解
  • wgd v1.1.2 安装与使用-生信工具056
  • Java 字符串常量池 +反射,枚举和lambda表达式