当前位置：首页 > news >正文

[人工智能-大模型-89]：大模型底层依赖层/支撑层技术栈 - 多卡并行支持，NVLink、InfiniBand 高速互联网络

news 2025/10/27 12:32:06

要理解大模型（如GPT、Gemini、通义千问等）为何能训练和运行，不能只看模型本身，必须深入其底层的技术支撑栈，尤其是 多卡并行 + 高速互联网络 这一核心基础设施。

我们可以把大模型的底层支撑层比作一个“无数个大脑组成的超级大脑的神经系统”：

💡 单个GPU是“单脑”，多卡并行是“多人协同”，高速互联就是“多人通信”——它们共同决定了AI大脑的反应速度和思考能力。

一、为什么需要“多卡并行”？

🔍 大模型太大了！

GPT-3 有 1750亿要修正的参数
GPT-4 估计有 1.8万亿要修正参数
一个参数通常占 4 字节（FP32），1万亿参数 ≈ 4TB 显存
而目前最强的单卡显存（如NVIDIA H100）也只有 80GB

👉 结论：一个GPU装不下，必须用几十甚至上万张GPU协同工作！

二、多卡并行的三种主要方式

并行方式	原理	优点	缺点
批次数据并行（Data Parallelism）	每张卡都有一份完整模型，但处理不同批次的数据	简单易实现	显存重复，通信开销大
模型"层组"并行（Model Parallelism）	把模型按层分段，像工厂流水线一样传递数据每张卡负责一部分（如一层）	节省显存	通信频繁，效率低
训练子过程流水线并行（Pipeline Parallelism）	把预测、误差分析、梯度计算、优化，按照流水线的方式并行。	减少空闲时间	存在“气泡”延迟相邻流水线之间要传递大量的计算结果。部分节点需要整个模型的参数。

并行方式

原理

优点

缺点

批次数据并行

（Data Parallelism）

每张卡都有一份完整模型，但处理不同批次的数据

简单易实现

显存重复，通信开销大

模型"层组"并行

（Model Parallelism）

把模型按层分段，像工厂流水线一样传递数据

每张卡负责一部分（如一层）

节省显存

通信频繁，效率低

训练子过程流水线并行

（Pipeline Parallelism）

把预测、误差分析、梯度计算、优化，按照流水线的方式并行。

减少空闲时间

存在“气泡”延迟

相邻流水线之间要传递大量的计算结果。

部分节点需要整个模型的参数。

✅ 实际大模型训练中，三者混合使用，称为 3D并行（3D Parallelism）

三、关键支撑技术 1：NVLink —— 服务器内部的GPU之间的“高速公路”

🚧 传统PCIe的瓶颈

传统CPU与GPU之间通过 PCIe总线连接
PCIe 4.0 x16 带宽 ≈ 32 GB/s
但GPU计算速度极快，数据“喂不饱”

🛣️ NVLink 是什么？

NVIDIA 开发的高速互连技术，专用于 GPU 与 GPU 之间、GPU 与 CPU 之间直接通信
不走PCIe，而是专用通道

📊 NVLink vs PCIe 带宽对比

连接方式	带宽（单向）	相当于PCIe几倍
PCIe 4.0 x16	~32 GB/s	1x
NVLink 3.0（A100）	25 GB/s × 12 = 300 GB/s	~9.4x
NVLink 4.0（H100）	50 GB/s × 18 = 900 GB/s	~28x

✅ NVLink 让多张GPU像“一块超大GPU”一样工作，极大提升模型并行效率

🖥️ 应用场景

单台服务器内多GPU互联（如DGX A100/H100，8卡全互联）
支持 Tensor Parallelism（张量并行），将矩阵运算拆到多个GPU

四、关键支撑技术 2：InfiniBand —— 服务器之间的“神经网络”

🌐 问题：一台服务器不够怎么办？

即使有8张H100，也难以训练GPT-4级别模型
需要成百上千台服务器组成集群

⚡ InfiniBand 是什么？

一种高性能、低延迟的网络互联技术
主要用于数据中心、超级计算机、AI训练集群
由 NVIDIA（收购 Mellanox）主导

📊 InfiniBand vs 以太网对比

特性	InfiniBand	传统以太网（TCP/IP）
带宽	200 Gbps / 400 Gbps / 800 Gbps	100 Gbps 主流
延迟	~1微秒	~10-100微秒
CPU占用	极低（RDMA支持）	高（需CPU参与）
协议开销	极小	大（TCP/IP栈复杂）

✅ InfiniBand + RDMA（远程直接内存访问）= 数据直接从一台机器的GPU显存传到另一台的GPU显存，无需经过CPU

五、典型大模型训练集群架构（以NVIDIA DGX SuperPOD为例）

+----------------------------+
|        AI 超算集群         |
|   (如：数千台DGX H100)     |
+--------------+-------------+|+---------+---------+|   InfiniBand 网络    | ← 全互联拓扑（如Fat Tree、Dragonfly）|  400Gbps / 800Gbps   |+---------+---------+|+---------v---------+     +------------------+|   单台DGX服务器      |     |   其他DGX节点    ||     (H100 × 8)      |<--->|     (H100 × 8)   ||                     |     |                  ||  NVSwitch + NVLink  |     |   同样配置       ||  八卡全互联          |     |                  |+---------------------+     +------------------+|+------+------+|   GPU 显存    | ← 参数、梯度、激活值在此流动| (HBM3, 80GB)  |+-------------+

🔧 工作流程：

数据分片 → 分发到不同节点（数据并行）
模型分层 → 分布在多个GPU上（模型并行）
梯度同步 → 通过 NVLink（机内） + InfiniBand（机间）快速聚合
使用 NCCL（NVIDIA Collective Communications Library）优化通信

六、其他关键技术组件（支撑层生态）

技术	作用
NCCL（NVIDIA）	多GPU通信库，优化AllReduce、Broadcast等操作
SHARP（In-Network Computing）	在交换机中做部分计算（如梯度聚合），减少GPU负担
GPUDirect RDMA	允许第三方设备（如网卡、存储）直接访问GPU显存
CUDA Graphs	将多次GPU调用打包，减少CPU调度开销
UMC（Unified Memory Compute）	统一内存管理，简化编程

七、替代方案：以太网 + RoCE

❓ 如果不用 InfiniBand 怎么办？

RoCE（RDMA over Converged Ethernet）
- 在以太网上实现 RDMA（远程直接内存访问）
- 成本低于 InfiniBand，以太网太普及了，成本极低。
- 性能接近，但对网络质量要求高（需无损网络）

✅ 国内很多云厂商（如阿里云、腾讯云）采用 RoCE v2 构建大模型训练网络

八、总结：大模型底层支撑技术栈全景图

                          +---------------------+|   大模型训练/推理    |+----------+----------+|+---------------v----------------+|        分布式训练框架           || (PyTorch DDP, FSDP, DeepSpeed) |+---------------+---------------+|+-----------------------v------------------------+|              多卡并行策略                        || 数据并行 + 模型并行 + 流水线并行 + 3D并行         |+-----------------------+------------------------+|+---------------------------v----------------------------+|                   通信后端优化                           || NCCL / RCCL / oneCCL （集合通信库）                     |+---------------------------+----------------------------+|+---------------------------------------------------------+|                   高速互联硬件层                           ||                                                           ||  机内互联： NVLink / NVSwitch  → 带宽高达 900 GB/s         ||  机间互联： InfiniBand 或 RoCE  → 带宽 400Gbps，延迟 <1μs ||                                                           |+---------------------------------------------------------+

✅ 关键结论

技术	作用	是否必需
多卡并行	解决显存和算力不足	✅ 必需
NVLink	提升单机内GPU通信效率	✅ 高性能必备
InfiniBand / RoCE	实现跨服务器高效协同	✅ 大规模训练必需
NCCL	优化通信算法	✅ 事实标准