当前位置：首页 > news >正文

深度学习专题：模型训练的数据并行（二）

news 2025/11/2 17:21:06

深度学习专题：模型训练的数据并行（二）

使用 Ring All-Reduce 策略同步各个 GPU 上的参数梯度

在分布式深度学习训练中，当模型参数规模庞大时，如何高效地在多个 GPU 之间同步梯度成为关键问题。Ring All-Reduce 是一种高效的通信算法，特别适合在多 GPU 环境中进行梯度同步。

（一）Ring All-Reduce 算法原理

Ring All-Reduce 将多个 GPU 设备组织成一个逻辑环状结构，每个设备只与相邻的两个设备通信。算法分为两个阶段：

（1）Scatter-Reduce 阶段：沿着环逐步累加梯度分块
（2）All-Gather 阶段：沿着环广播完整的累加结果

对于 N 个设备，每个设备只需要发送和接收 2×(N-1) 次数据，通信量不随设备数量增加而显著增长。

（二）实例分析：详细讲解 Ring All-Reduce 通信流程

1. 已知条件

四块 GPU：GPU-A、GPU-B、GPU-C、GPU-D
9 个模型参数： $[w_1\quad w_2\quad ...\quad w_9]$
优化器：SGD，学习率 lr = 1，更新公式： $\times g$

2. 第 t 轮 epoch 后的模型参数，以及第 t+1 轮 epoch 各 GPU 计算的梯度

参数	GPU-A w	GPU-A g	GPU-B w	GPU-B g	GPU-C w	GPU-C g	GPU-D w	GPU-D g
1	173	3	173	-4	173	7	173	2
2	38	9	38	-3	38	6	38	-5
3	16	2	16	0	16	-2	16	4
4	117	10	117	-10	117	5	117	-3
5	80	-5	80	8	80	-1	80	6
6	72	1	72	4	72	-8	72	-2
7	67	-7	67	2	67	9	67	1
8	45	6	45	-6	45	3	45	-4
9	198	-2	198	7	198	-9	198	5

3. Ring All-Reduce 执行过程

3.1 梯度分块分配

由于有 4 个 GPU，我们将 9 个参数梯度分为 4 个尽可能均匀的块：
（1）块 1：w1-w2（前2个参数）：GPU-D 负责聚合
（2）块 2：w3-w4（接下来2个参数）：GPU-A 负责聚合
（3）块 3：w5-w6（接下来2个参数）：GPU-B 负责聚合
（4）块 4：w7-w9（最后3个参数）：GPU-C 负责聚合

3.2 Reduce-Scatter 阶段

初始梯度状态：

参数	GPU-A g	GPU-B g	GPU-C g	GPU-D g	∑g
1	3	-4	7	2	8
2	9	-3	6	-5	7
3	2	0	-2	4	4
4	10	-10	5	-3	2
5	-5	8	-1	6	8
6	1	4	-8	-2	-5
7	-7	2	9	1	5
8	6	-6	3	-4	-1
9	-2	7	-9	5	1

第一次通信：

GPU-A 向 GPU-B 发送块1
GPU-B 向 GPU-C 发送块2
GPU-C 向 GPU-D 发送块3
GPU-D 向 GPU-A 发送块4
第一次通信后状态：

参数	GPU-A g	GPU-B g	GPU-C g	GPU-D g
1	3 [A]	-1 [B+A]	7 [C]	2 [D]
2	9 [A]	6 [B+A]	6 [C]	-5 [D]
3	2 [A]	0 [B]	-2 [C+B]	4 [D]
4	10 [A]	-10 [B]	-5 [C+B]	-3 [D]
5	-5 [A]	8 [B]	-1 [C]	5 [D+C]
6	1 [A]	4 [B]	-8 [C]	-10 [D+C]
7	-6 [A+D]	2 [B]	9 [C]	1 [D]
8	2 [A+D]	-6 [B]	3 [C]	-4 [D]
9	3 [A+D]	7 [B]	-9 [C]	5 [D]

第二次通信：

GPU-A 向 GPU-B 发送块4
GPU-B 向 GPU-C 发送块1
GPU-C 向 GPU-D 发送块2
GPU-D 向 GPU-A 发送块3
第二次通信后状态：

参数	GPU-A g	GPU-B g	GPU-C g	GPU-D g
1	3 [A]	-1 [B+A]	6 [C+B+A]	2 [D]
2	9 [A]	6 [B+A]	12 [C+B+A]	-5 [D]
3	2 [A]	0 [B]	-2 [C+B]	2 [D+C+B]
4	10 [A]	-10 [B]	-5 [C+B]	-8 [D+C+B]
5	0 [A+D+C]	8 [B]	-1 [C]	5 [D+C]
6	-9 [A+D+C]	4 [B]	-8 [C]	-10 [D+C]
7	-6 [A+D]	-4 [B+A+D]	9 [C]	1 [D]
8	2 [A+D]	-4 [B+A+D]	3 [C]	-4 [D]
9	3 [A+D]	10 [B+A+D]	-9 [C]	5 [D]

第三次通信：

GPU-A 向 GPU-B 发送块3
GPU-B 向 GPU-C 发送块4
GPU-C 向 GPU-D 发送块1
GPU-D 向 GPU-A 发送块2
第三次通信后状态：

参数	GPU-A g	GPU-B g	GPU-C g	GPU-D g
1	3 [A]	-1 [B+A]	6 [C+B+A]	8 [D+C+B+A]
2	9 [A]	6 [B+A]	12 [C+B+A]	7 [D+C+B+A]
3	4 [A+D+C+B]	0 [B]	-2 [C+B]	2 [D+C+B]
4	2 [A+D+C+B]	-10 [B]	-5 [C+B]	-8 [D+C+B]
5	0 [A+D+C]	8 [B+A+D+C]	-1 [C]	5 [D+C]
6	-9 [A+D+C]	-5 [B+A+D+C]	-8 [C]	-10 [D+C]
7	-6 [A+D]	-4 [B+A+D]	5 [C+B+A+D]	1 [D]
8	2 [A+D]	-4 [B+A+D]	-1 [C+B+A+D]	-4 [D]
9	3 [A+D]	10 [B+A+D]	1 [C+B+A+D]	5 [D]

此时 Reduce-Scatter 阶段完成，每个 GPU 已聚合完成自己负责的块：

GPU-A：块2 已聚合完成（参数3-4）
GPU-B：块3 已聚合完成（参数5-6）
GPU-C：块4 已聚合完成（参数7-9）
GPU-D：块1 已聚合完成（参数1-2）

参数	GPU-A g	GPU-B g	GPU-C g	GPU-D g
1	-	-	-	8
2	-	-	-	7
3	4	-	-	-
4	2	-	-	-
5	-	8	-	-
6	-	-5	-	-
7	-	-	5	-
8	-	-	-1	-
9	-	-	1	-

3.3 All-Gather 阶段

All-Gather阶段目标：将每个GPU上已聚合的完整梯度块广播给所有其他GPU

第四次通信：

GPU-A 向 GPU-B 发送块2
GPU-B 向 GPU-C 发送块3
GPU-C 向 GPU-D 发送块4
GPU-D 向 GPU-A 发送块1

第四次通信后状态：

参数	GPU-A g	GPU-B g	GPU-C g	GPU-D g
1	8	-	-	8
2	7	-	-	7
3	4	4	-	-
4	2	2	-	-
5	-	8	8	-
6	-	-5	-5	-
7	-	-	5	5
8	-	-	-1	-1
9	-	-	1	1

第五次通信：

GPU-A 向 GPU-B 发送块1
GPU-B 向 GPU-C 发送块2
GPU-C 向 GPU-D 发送块3
GPU-D 向 GPU-A 发送块4

第五次通信后状态：

参数	GPU-A g	GPU-B g	GPU-C g	GPU-D g
1	8	8	-	8
2	7	7	-	7
3	4	4	4	-
4	2	2	2	-
5	-	8	8	8
6	-	-5	-5	-5
7	5	-	5	5
8	-1	-	-1	-1
9	1	-	1	1

第六次通信：

GPU-A 向 GPU-B 发送块4
GPU-B 向 GPU-C 发送块1
GPU-C 向 GPU-D 发送块2
GPU-D 向 GPU-A 发送块3

第六次通信后状态（最终状态）：

参数	GPU-A g	GPU-B g	GPU-C g	GPU-D g
1	8	8	8	8
2	7	7	7	7
3	4	4	4	4
4	2	2	2	2
5	8	8	8	8
6	-5	-5	-5	-5
7	5	5	5	5
8	-1	-1	-1	-1
9	1	1	1	1

此时 All-Gather 阶段完成，所有 GPU 都获得了完整的聚合梯度。

3.4 模型参数更新

所有 GPU 使用相同的聚合梯度更新模型参数：

更新后的模型参数（使用 SGD： $\times g$ ）：

参数	原始 w	聚合梯度 g	更新后 w
1	173	8	165
2	38	7	31
3	16	4	12
4	117	2	115
5	80	8	72
6	72	-5	77
7	67	5	62
8	45	-1	46
9	198	1	197

所有 GPU 上的模型参数现在保持一致：

参数	GPU-A w	GPU-B w	GPU-C w	GPU-D w
1	165	165	165	165
2	31	31	31	31
3	12	12	12	12
4	115	115	115	115
5	72	72	72	72
6	77	77	77	77
7	62	62	62	62
8	46	46	46	46
9	197	197	197	197

经过 Ring All-Reduce 同步后，四个 GPU 上的模型参数完全一致，确保了分布式训练的一致性。

（三）总结

Ring All-Reduce 通过巧妙的环状通信模式，有效解决了多 GPU 训练中的梯度同步问题。每个GPU在Reduce-Scatter阶段负责特定块的聚合，在All-Gather阶段广播聚合结果，避免了集中式的通信瓶颈。

相比参数服务器架构，它在大规模集群中表现更加优秀，是现代分布式深度学习框架的核心通信算法：

PyTorch：通过 torch.distributed 包提供支持
TensorFlow：通过 tf.distribute.Strategy 实现
Horovod：专门为分布式训练优化的通信库

在实际应用中，框架会自动处理梯度分块、通信调度等细节，开发者只需关注模型设计和训练逻辑，大大降低了分布式训练的复杂度。

查看全文

http://www.dtcms.com/a/553705.html

企业网站建设方案新闻网站购买域名

C++ STL 有序关联容器高频面试题解析

腾讯风铃怎么做网站成都哪家做网站

二叉树核心算法分类精讲：选择、遍历与结构关系

【人工智能系列：走近人工智能05】基于 PyTorch 的机器学习开发与部署实战

Arbess零基础学习，创建第一条流水线

Linux DNS 深度解析与最佳实践

RGB转换为NV12，查表式算法

PostIn零基础学习，创建第一个项目

百度网站优化排行做响应式网站应该注意什么

女生化妆品网站建设规划书该网站的域名为

基于NvVideoEncoder的H265视频编码器

淄博网站快照优化公司html5开发网站

厦门门户网站制作服务商保健品商城网站模板

day61-devops

【代码随想录算法训练营——Day54】并查集——107.寻找存在的路线

用「费曼-神经耦合学习法」21天攻克算法

VScode C/C++环境配置

禁用vscode的任务结束提示

做网站接单的网站公司做网站哪个好

轻量实用的 XML 与 JSON / 对象互转工具类（Jackson 实现）

Go Web 编程快速入门 19 - 附录C：事务与 CRUD（含最佳实践）

SQL Server从Enterprise CAL到Core版升级全记录：解锁160核心性能的完整复盘与深刻反思

网站建设和管理培训自建服务器做网站要备案

ArkTS 第一课：从零开始学鸿蒙应用开发

做门户网站代码质量方面具体需要注意什么厦门网页制作设计营销

LightGBM（Light Gradient Boosting Machine）模型详解

LeetCode 每日一题 1526. 形成目标数组的子数组最少增加次数

Linux中伙伴系统页面回收free_pages_bulk和分配函数__rmqueue的实现

33.点赞功能

参数	GPU-A w	GPU-A g	GPU-B w	GPU-B g	GPU-C w	GPU-C g	GPU-D w	GPU-D g
1	173	3	173	-4	173	7	173	2
2	38	9	38	-3	38	6	38	-5
3	16	2	16	0	16	-2	16	4
4	117	10	117	-10	117	5	117	-3
5	80	-5	80	8	80	-1	80	6
6	72	1	72	4	72	-8	72	-2
7	67	-7	67	2	67	9	67	1
8	45	6	45	-6	45	3	45	-4
9	198	-2	198	7	198	-9	198	5

参数	GPU-A g	GPU-B g	GPU-C g	GPU-D g	∑g
1	3	-4	7	2	8
2	9	-3	6	-5	7
3	2	0	-2	4	4
4	10	-10	5	-3	2
5	-5	8	-1	6	8
6	1	4	-8	-2	-5
7	-7	2	9	1	5
8	6	-6	3	-4	-1
9	-2	7	-9	5	1

参数	原始 w	聚合梯度 g	更新后 w
1	173	8	165
2	38	7	31
3	16	4	12
4	117	2	115
5	80	8	72
6	72	-5	77
7	67	5	62
8	45	-1	46
9	198	1	197

参数	GPU-A w	GPU-B w	GPU-C w	GPU-D w
1	165	165	165	165
2	31	31	31	31
3	12	12	12	12
4	115	115	115	115
5	72	72	72	72
6	77	77	77	77
7	62	62	62	62
8	46	46	46	46
9	197	197	197	197

参数	GPU-A w	GPU-A g	GPU-B w	GPU-B g	GPU-C w	GPU-C g	GPU-D w	GPU-D g
1	173	3	173	-4	173	7	173	2
2	38	9	38	-3	38	6	38	-5
3	16	2	16	0	16	-2	16	4
4	117	10	117	-10	117	5	117	-3
5	80	-5	80	8	80	-1	80	6
6	72	1	72	4	72	-8	72	-2
7	67	-7	67	2	67	9	67	1
8	45	6	45	-6	45	3	45	-4
9	198	-2	198	7	198	-9	198	5

参数	GPU-A g	GPU-B g	GPU-C g	GPU-D g	∑g
1	3	-4	7	2	8
2	9	-3	6	-5	7
3	2	0	-2	4	4
4	10	-10	5	-3	2
5	-5	8	-1	6	8
6	1	4	-8	-2	-5
7	-7	2	9	1	5
8	6	-6	3	-4	-1
9	-2	7	-9	5	1

参数	原始 w	聚合梯度 g	更新后 w
1	173	8	165
2	38	7	31
3	16	4	12
4	117	2	115
5	80	8	72
6	72	-5	77
7	67	5	62
8	45	-1	46
9	198	1	197

参数	GPU-A w	GPU-B w	GPU-C w	GPU-D w
1	165	165	165	165
2	31	31	31	31
3	12	12	12	12
4	115	115	115	115
5	72	72	72	72
6	77	77	77	77
7	62	62	62	62
8	46	46	46	46
9	197	197	197	197