【nvidia-GB200】(2) 18 台 GB200 服务器集群 NCCL All-to-All 性能深度测评:72 张 GPU 多对多通信的效率与潜力
目录
18xGB200 all-to-all 源数据
一、测评背景:为什么 All-to-All 是分布式计算的 “关键考验”?
二、测评环境:硬件与软件的 “多对多通信适配基础”
2.1 硬件集群配置:支撑 All-to-All 的 “高密度互联架构”
2.2 软件环境:针对 All-to-All 优化的 “版本组合”
2.3 测试参数设计:贴合 All-to-All 实际应用场景
2.3.1 核心测试命令与参数
2.3.2 核心性能指标定义(与 All-Reduce 的差异)
三、测试结果总览:72 张 GPU All-to-All 的核心表现
四、深度分析:All-to-All 性能背后的技术逻辑
4.1 功能正确性:All-to-All 数据交换的 “零错误保障”
4.1.1 数据校验逻辑的严谨性
4.1.2 in-place 模式 “N/A” 的合理性解读
4.2 性能趋势:从 128MB 到 4GB,带宽如何逐步饱和?
4.2.1 小数据量(128MB-256MB):延迟主导,带宽未跑满
4.2.2 中数据量(512MB-1GB):延迟占比下降,带宽快速提升
4.2.3 大数据量(2GB-4GB):带宽完全饱和,达硬件上限
4.3 操作模式差异:in-place 与 out-of-place 该如何选择?
4.3.1 性能差异小的核心原因
4.3.2 模式选择建议
4.4 与 All-Reduce 的性能对比:为何 All-to-All 峰值带宽更低?
五、总结与优化建议:All-to-All 通信的部署指导
5.1 核心结论
5.2 性能优化建议(可选)
18xGB200 all-to-all 源数据
# Collective test starting: alltoall_perf
# nThread 1 nGpus 1 minBytes 134217728 maxBytes 4294967296 step: 2(factor) warmup iters: 5 iters: 20 agg iters: 1 validation: 1 graph: 0
#
# Using devices
# Rank 0 Group 0 Pid 124769 on test-1 device 0 [0008:01:00] NVIDIA test
# Rank 1 Group 0 Pid 124770 on test-1 device 1 [0009:01:00] NVIDIA test
# Rank 2 Group 0 Pid 124771 on test-1 device 2 [0018:01:00] NVIDIA test
# Rank 3 Group 0 Pid 124773 on test-1 device 3 [0019:01:00] NVIDIA test
# Rank 4 Gr