当前位置：首页 > news >正文

100多台物理GPU服务器，每台服务器上有8张GPU卡，组网

news 2025/11/15 6:32:02

100 多台 8 卡 GPU 服务器（共 800 + 张 GPU）组网，核心目标是满足大规模分布式训练的低延迟、高带宽、无单点故障需求，同时兼顾扩展性和可维护性。推荐采用 **“叶脊（Spine-Leaf）全互联拓扑”**，搭配分层网络设计（计算网、管理网、存储网物理隔离），以下是详细方案：

一、组网核心原则

性能优先：计算网（GPU 跨节点通信）需支撑 800+GPU 的all-reduce等集合通信，单链路带宽≥100G，端到端延迟≤10μs；
无单点故障：关键设备（交换机、网卡）全冗余，链路双活，避免单故障导致集群分区；
分层隔离：计算网、管理网、存储网物理分离，避免互相抢占带宽；
扩展性强：支持未来扩容至 200 + 台服务器，无需重构拓扑；
易管理：拓扑清晰、布线规范，支持统一监控与故障定位。

二、网络架构设计（核心：Spine-Leaf 全互联）

针对 100 + 台服务器规模，采用标准叶脊拓扑（中小型集群无需额外 Aggregation 层），分为三层网络平面：

网络平面	核心用途	技术选型	带宽需求
计算网（核心）	跨节点 GPU 通信（参数同步、模型并行数据交换）	InfiniBand（IB）HDR/NDR 或 RoCEv2	单链路 200G/400G，集群总带宽≥20TB/s
管理网	节点 IPMI 监控、SSH 管理、日志传输、调度系统通信	10G 以太网	单链路 10G，总带宽≥100G（冗余后）
存储网	连接并行存储（如 GPFS、Ceph），共享训练数据 / Checkpoint	100G 以太网或 IB	单链路 100G，总带宽≥10TB/s

1. 计算网：Spine-Leaf 拓扑详解（核心中的核心）

计算网是集群性能瓶颈的关键，优先选InfiniBand（IB）RDMA（低延迟、无 TCP 开销），预算有限可退选 RoCEv2（基于以太网的 RDMA）。

（1）拓扑结构

Leaf 层（叶交换机）：每机柜 1 台 Leaf 交换机，负责连接本柜所有 GPU 服务器，以及上联至 Spine 层；
Spine 层（脊交换机）：集中转发所有 Leaf 交换机的流量，实现跨机柜服务器间无阻塞通信；
全互联特性：任意两台服务器的通信，仅需经过 “服务器→Leaf→Spine→Leaf→服务器”2 跳，延迟极低。

（2）硬件选型与数量测算

假设 100 台服务器部署在 10 个机柜（每柜 10 台 4U 服务器），计算网采用200G HDR IB：

Leaf 交换机：每台需支持 “本柜服务器端口 + 上联 Spine 端口”，选型为 48 口 200G IB 交换机（如 Mellanox SN2700）：
- 每台服务器双 IB 网卡（冗余）→ 每柜 10 台 ×2 端口 = 20 个服务器端口；
- 上联 Spine 端口：每台 Leaf 需 4 个上联端口（冗余，避免单链路饱和）；
- 数量：10 个机柜→10 台 Leaf 交换机。
Spine 交换机：需支持所有 Leaf 上联端口的总带宽，选型为 64 口 200G IB 交换机（如 Mellanox SN4700）：
- 总上联端口数：10 台 Leaf×4 端口 = 40 个；
- 冗余设计：部署 4 台 Spine 交换机（支持 40 个上联端口 + 预留扩展端口），任意 1 台 Spine 故障不影响集群；
- 总带宽：4 台 Spine×64 口 ×200G=51.2TB/s，完全满足 100 台服务器的峰值通信需求。
服务器网卡：每台服务器配置 2 张 200G IB 网卡（如 Mellanox ConnectX-7），分别连接本柜 Leaf 交换机的 2 个不同端口（链路冗余）。

（3）RoCEv2 替代方案（成本优化）

若选择 RoCEv2（基于以太网），硬件选型调整为：

Leaf 交换机：48 口 400G 以太网交换机（如 Arista 7050X3），支持 PFC/ECN（RoCE 拥塞控制必需）；
Spine 交换机：64 口 400G 以太网交换机（如 Cisco C9300X）；
网卡：2 张 400G RoCE 网卡（如 Intel E810-CQDA2），需手动配置 MTU=9000（Jumbo Frame）、PFC 流控。

2. 管理网：简单冗余拓扑

管理网无高性能需求，但需稳定可靠：

Leaf 交换机：每机柜 1 台 16 口 10G 以太网交换机（如 H3C S5560X），连接本柜服务器的 IPMI 口和管理网口（eth0）；
核心交换机：2 台冗余 10G 以太网核心交换机（如 Cisco Catalyst 9500），上联所有机柜的管理 Leaf 交换机；
布线：用 Cat6a 网线连接，每台服务器双网口冗余（IPMI 口 + 业务管理口），确保离线时仍能通过 IPMI 远程管理。

3. 存储网：独立 Leaf-Spine 拓扑（可选）

若集群需挂载并行存储（如 GPFS），建议单独部署存储网，避免占用计算网带宽：

拓扑：与计算网一致（Leaf-Spine），但交换机和网卡独立；
硬件：Leaf 交换机用 48 口 100G 以太网交换机，服务器新增 2 张 100G 以太网网卡，存储节点（如 GPFS 存储服务器）双网卡连接 Leaf 交换机；
协议：支持 RDMA（如 iWARP），提升存储读写吞吐量。

三、硬件清单汇总（100 台服务器 + 10 机柜）

网络平面	组件类型	规格型号（示例）	数量	备注
计算网	Leaf 交换机	Mellanox SN2700（48 口 200G IB）	10 台	每机柜 1 台
计算网	Spine 交换机	Mellanox SN4700（64 口 200G IB）	4 台	冗余设计，支持故障切换
计算网	IB 网卡	Mellanox ConnectX-7（200G）	200 张	每台服务器 2 张
计算网	光模块 + 光纤	QSFP56 SR4（200G）+ OM4 多模光纤	800 个模块 + 400 根光纤	每链路 2 个模块，光纤长度≤100 米
管理网	管理 Leaf 交换机	H3C S5560X（16 口 10G）	10 台	每机柜 1 台
管理网	管理核心交换机	Cisco C9500（48 口 10G）	2 台	主备冗余
管理网	网线	Cat6a 屏蔽网线	400 根	每台服务器 2 根（IPMI + 管理口）
存储网	存储 Leaf 交换机	Arista 7050X3（48 口 100G）	10 台	每机柜 1 台（可选）
存储网	存储网卡	Intel E810（100G）	200 张	每台服务器 2 张（可选）

四、关键配置与优化（确保性能与稳定）

1. 计算网配置（IB 为例）

RDMA 与 GPU Direct 启用：安装 Mellanox OFED 驱动，加载mlx5_ib、rdma_cm内核模块，通过nvidia-smi -g 0 --gpu-direct-rdma 1启用 GPU Direct RDMA（GPU 绕过 CPU 直接通过 IB 网卡通信）；
拓扑优化：通过 Subnet Manager（SM）配置 IB 子网，启用 LID 多路径（MPR），让跨节点通信自动负载均衡到不同 Spine-Leaf 链路；
NCCL 优化：部署最新版 NCCL（≥2.18），设置环境变量NCCL_TOPO_FILE指定集群拓扑文件，让 NCCL 自动选择最优通信路径（优先同机柜、同 Leaf 交换机的节点）。

2. RoCEv2 配置（若采用）

关键参数调优：所有节点和交换机设置 MTU=9000，启用 PFC（流控）和 DCQCN（拥塞控制），通过ethtool -K eth0 rx_cqe_mode on tx_cqe_mode on优化网卡队列；
避免丢包：交换机配置缓冲区动态分配，确保 RoCE 流量优先获得缓冲区，减少拥塞丢包（丢包会导致训练重试，严重拖慢速度）。

3. 冗余与高可用

链路冗余：每台服务器的双 IB 网卡绑定为 LACP 模式（模式 4），单链路故障时自动切换，带宽叠加；
Spine 冗余：4 台 Spine 交换机通过 VRRP 协议实现主备，任意 1 台故障，流量自动切换到其他 Spine；
故障隔离：通过 IB 交换机的 “端口隔离” 功能，将故障节点的端口禁用，避免影响整个子网。

五、布线规范（机房物理实施）

1. 机柜布局

10 个机柜按 “2 列 ×5 柜” 部署，列间距≥1.2 米（冷通道），机柜背对背形成热通道，布线避开冷热通道出风口；
每机柜顶部安装 2 个 PDU（强电）、1 台 Leaf 交换机（计算网）、1 台管理交换机，底部地板开孔（直径≥15cm）用于线缆进出。

2. 线缆布线

计算网光纤：走机柜顶部水平弱电桥架（分 IB 光纤专区）→ 垂直弱电槽→ 服务器后窗 IB 网卡，每根光纤两端贴热缩管标签（标注 “服务器 IP - 网卡口→交换机 - 端口”，如 “node01-ib0 → Leaf01-10”）；
管理网网线：走机柜右侧垂直弱电槽→ 服务器 IPMI 口 / 管理网口，用魔术贴捆扎（每 20cm 固定一次），预留 10cm 冗余（便于服务器抽拉维护）；
强电与弱电分离：电源线走机柜左侧强电槽，与网络线缆（弱电）间距≥30cm，避免电磁干扰。

3. 文档与标识

绘制拓扑图（含机柜、交换机、服务器、端口连接关系），用 NetBrain 等工具生成电子拓扑，定期更新；
交换机端口面板标注对应服务器编号，机柜内张贴节点 IP 与位置对照表，便于运维排查。

六、集群管理与监控

1. 资源调度

部署 Slurm 或 Kubernetes（K8s）：
- Slurm：配置gres.conf声明每节点 8 张 GPU，通过sbatch提交分布式任务，支持队列优先级和资源配额；
- K8s：用 NVIDIA GPU Operator 自动配置 GPU 资源，通过 Pod 请求nvidia.com/gpu: 8分配资源，搭配 Volcano 调度器优化分布式训练调度。

2. 监控告警

部署 Prometheus+Grafana：
- 计算网监控：用ib_exporter采集 IB 带宽、延迟、丢包率，设置阈值（如带宽使用率 > 85%、丢包率 > 0.01% 告警）；
- GPU 监控：用dcgm-exporter采集 GPU 温度、利用率、显存使用；
- 交换机监控：通过 SNMP 采集交换机端口状态、风扇 / 电源健康，异常时触发邮件 / 短信告警。