当前位置: 首页 > news >正文

Megatron系列——张量并行

本文整理自bilibili Zomi视频

1、行切分和列切分

注意:

(1)A按列切分时,X无需切分,split复制广播到A1和A2对应设备即可。最后Y1和Y2需要拼接下,即All Gather

(2)A按行切分时,X需要按列切分split,最终Y1和Y2需要做All Reduce Sum操作

(3)多次连续矩阵乘,可以把All Gather和Split省略,这个操作是不必要的。

1.1 反向传播

备注:

(1)这个视频中有人提到为什么需要对X进行求导,可以看做X为上一层或上一个模块的输出,要对上一层参数进行求导,就必须要对X求导。

(2)反向传播时,注意是两个设备上X的导数求和

行并行

2、MLP

备注:

(1)经过了两次矩阵乘,A按列切分,算出的Y1和Y2也为按列切分了,故B按行切分即可。

(2)f为copy,g为all reduce

3、Attention

备注:

(1)这里的Q,K,V是按头的个数进行列切分

相关文章:

  • Clang实现C++文件分析,含Python实战
  • 嵌入式系统:从基础到应用的全面解析
  • MySQL 备份与恢复
  • Linux环境下安装MySQL
  • 5月12日复盘-RNN
  • 1.8 梯度
  • uni-app学习笔记五--vue3插值表达式的使用
  • 龙虎榜——20250512
  • 硬件设备基础
  • Claude深度解析:从技术原理到实战应用的全栈指南
  • Model.eval() 与 torch.no_grad() PyTorch 中的区别与应用
  • 接口自动化测试调研--python自动化
  • 状态压缩动态规划:用二进制“魔法”破解组合难题
  • AI 在模仿历史语言方面面临挑战:大型语言模型在生成历史风格文本时的困境与研究进展
  • day012-软件包管理专题
  • 【Mysql基础】二、函数和约束
  • 专题二:二叉树的深度优先搜索
  • 【Python爬虫】01-Python爬虫概述
  • vLLM中paged attention算子分析
  • 客户端限流主要采用手段:纯前端验证码、禁用按钮、调用限制和假排队
  • 梅花奖在上海|穿上初演时的服装,“鹮仙”朱洁静再起飞
  • 普京:俄中关系是国家间关系的真正典范
  • 2025年4月份CPI环比由降转涨,核心CPI涨幅稳定
  • 会计江湖|年报披露关注什么:独董给出的“信号”
  • 浙江一民企拍地后遭政府两次违约,“民告官”三年又提起民事诉讼
  • 印度杰纳布河上游两座水电站均已重新开闸