当前位置：首页 > news >正文

【nvidia-GB200】(2) 18 台 GB200 服务器集群 NCCL All-to-All 性能深度测评：72 张 GPU 多对多通信的效率与潜力

news 2025/10/24 9:01:33

18xGB200 all-to-all 源数据

一、测评背景：为什么 All-to-All 是分布式计算的 “关键考验”？

二、测评环境：硬件与软件的 “多对多通信适配基础”

2.1 硬件集群配置：支撑 All-to-All 的 “高密度互联架构”

2.2 软件环境：针对 All-to-All 优化的 “版本组合”

2.3 测试参数设计：贴合 All-to-All 实际应用场景

2.3.1 核心测试命令与参数

2.3.2 核心性能指标定义（与 All-Reduce 的差异）

三、测试结果总览：72 张 GPU All-to-All 的核心表现

四、深度分析：All-to-All 性能背后的技术逻辑

4.1 功能正确性：All-to-All 数据交换的 “零错误保障”

4.1.1 数据校验逻辑的严谨性

4.1.2 in-place 模式 “N/A” 的合理性解读

4.2 性能趋势：从 128MB 到 4GB，带宽如何逐步饱和？

4.2.1 小数据量（128MB-256MB）：延迟主导，带宽未跑满

4.2.2 中数据量（512MB-1GB）：延迟占比下降，带宽快速提升

4.2.3 大数据量（2GB-4GB）：带宽完全饱和，达硬件上限

4.3 操作模式差异：in-place 与 out-of-place 该如何选择？

4.3.1 性能差异小的核心原因

4.3.2 模式选择建议

4.4 与 All-Reduce 的性能对比：为何 All-to-All 峰值带宽更低？

五、总结与优化建议：All-to-All 通信的部署指导

5.1 核心结论

5.2 性能优化建议（可选）

18xGB200 all-to-all 源数据

# Collective test starting: alltoall_perf
# nThread 1 nGpus 1 minBytes 134217728 maxBytes 4294967296 step: 2(factor) warmup iters: 5 iters: 20 agg iters: 1 validation: 1 graph: 0
#
# Using devices
#  Rank  0 Group  0 Pid 124769 on    test-1 device  0 [0008:01:00] NVIDIA test
#  Rank  1 Group  0 Pid 124770 on    test-1 device  1 [0009:01:00] NVIDIA test
#  Rank  2 Group  0 Pid 124771 on    test-1 device  2 [0018:01:00] NVIDIA test
#  Rank  3 Group  0 Pid 124773 on    test-1 device  3 [0019:01:00] NVIDIA test
#  Rank  4 Gr

查看全文

http://www.dtcms.com/a/520213.html