GPU集群如何规划
一、前期规划:机柜布局与负载测算
布线的前提是合理规划物理空间与资源负载,避免后期因空间拥挤或负载过载导致重构
1. 机柜密度与布局
- 单机柜容纳量:按标准 42U 机柜计算,每台 GPU 服务器高度约 4U(8 卡机型通常为 2U 或 4U,以 4U 为例),单机柜可放置 10 台(4U×10=40U,预留 2U 空间用于 PDU、交换机等)。200 台机器需20 个机柜,建议按 “列” 部署(如 4 列 ×5 柜),列间距≥1.2 米(便于运维)。
- 冷热通道隔离:采用 “面对面、背对背” 机柜布局,机柜正面(冷通道)进冷风(温度 18-22℃),背面(热通道)出热风(通过天花板回风),布线路径需避开冷通道出风口和热通道回风口(避免线缆阻挡气流)。
2. 电力负载测算
- 单机功耗估算:8 卡 GPU 服务器(如搭载 8×A100 80GB)满负载功耗约 3000-4000W(含 GPU、CPU、内存、存储),200 台总功耗约 600-800kW,需匹配数据中心供电容量(含冗余)。
- 机柜供电上限:单机柜 10 台机器总功耗约 30-40kW,需配置冗余三相 PDU(每机柜 2 个 PDU,支持 380V 三相电,总功率≥45kW,单路过载保护),避免单 PDU 故障导致整机柜宕机
二、电力布线:稳定冗余,避免单点故障
GPU 集群对电力稳定性要求极高(突然断电可能导致训练任务失败、数据丢失),电力布线需兼顾容量、冗余和可管理性。
1. 供电架构
- 总进线:采用 “市电 + UPS + 发电机” 三重冗余,UPS 容量按总功耗 1.5 倍配置(如 800kW×1.5=1200kVA),确保断电后能支撑 30 分钟以上(足够保存数据)。
- 机柜级供电:
- 每机柜配置 2 个3 相 PDU(如施耐德 AP8858),支持热插拔,输出接口为 IEC C13/C19(匹配服务器电源接口)。
- 每台服务器通过双电源线分别连接机柜内 2 个 PDU(冗余供电),避免单 PDU 故障导致机器离线。
2. 线缆规格与布线
- 线缆选择:服务器到 PDU 采用 16A/250V 工业级电源线(线径≥1.5mm²),PDU 到机房配电柜采用 3×6mm² 三相线缆(载流量≥30A)。
- 布线路径:电源线走机柜两侧垂直线槽(强电槽),与网络线缆(弱电)物理分离(间距≥30cm),避免电磁干扰(尤其对低电压的管理网络)。
- 标识规范:每根电源线两端贴标签(如 “机柜 A1-PDU1 - 端口 5 → 服务器 S01”),并在 PDU 面板标注端口对应服务器编号。
三、网络布线:分层架构,适配 GPU 通信需求
GPU 集群的网络分为三类,需分开布线以保证性能:计算网络(GPU 间通信)、管理网络(节点监控)、存储网络(连接 GPFS 等并行存储)。
1. 计算网络(核心!低延迟、高带宽)
- 用途:GPU 间数据同步(如 NVIDIA NVLink 不够时的补充,或跨节点 GPU 通信)、分布式训练任务通信(如用 Horovod 框架)。
- 技术选型:优先采用InfiniBand(IB)RDMA 网络(如 Mellanox HDR/EDR,带宽 100G/200G),替代方案为 RoCEv2(基于以太网的 RDMA,成本较低但延迟略高)。
- 网络架构:
- 叶脊(Spine-Leaf)拓扑:Leaf 交换机(每机柜 1 台)连接本柜所有服务器,Spine 交换机(4-6 台,冗余)连接所有 Leaf 交换机,总带宽 = Leaf 数量 × 单端口带宽 ×2(冗余)。
- 200 台服务器 × 每台 2 个 IB 端口(冗余)=400 个 Leaf 端口,需每台 Leaf 交换机支持 48×100G 端口(如 Mellanox SN2700),20 个机柜需 20 台 Leaf 交换机,搭配 4 台 Spine 交换机(每台 48×100G 端口)。
- 布线细节:
- 线缆:IB 交换机到服务器用OM4 多模光纤(100G SR4,传输距离≤100 米),Spine 与 Leaf 间用 OM5 光纤(支持 400G,预留升级空间)。
- 路径:光纤走机柜顶部水平桥架→垂直弱电槽→服务器后窗 IB 网卡,每根光纤两端贴标签(含端口号、对应设备),并记录在网络管理系统(如 Zabbix)。
- 冗余设计:每台服务器 2 个 IB 端口分别连接本柜 Leaf 交换机的 2 个不同端口(或跨机柜 Leaf 交换机,更高冗余),避免单端口 / 交换机故障。
2. 管理网络
- 用途:节点监控(IPMI)、集群管理(SSH)、日志传输,带宽需求低(1G/10G 足够)。
- 技术选型:10G 以太网,采用独立交换机(避免占用计算网络带宽)。
- 布线:每台服务器的管理网口(IPMI 口)通过Cat6a 网线连接到机柜内管理交换机(如 Cisco CBS350),交换机上联至管理核心交换机(冗余双机)。
3. 存储网络(若独立于计算网络)
- 用途:连接 GPU 服务器与 GPFS 存储集群,需高吞吐(如 100G 以太网或 IB)。
- 布线:与计算网络类似,采用独立 Leaf 交换机,服务器通过额外的 IB / 以太网端口连接,线缆走单独弱电槽(与计算网络光纤分开标识,如标签含 “STORAGE”)。
四、物理布线实施:规范与细节
1. 机柜内布线
- 垂直理线:机柜两侧安装垂直理线架,电源线(强电)走左侧,网络线(弱电)走右侧,线缆用魔术贴捆扎(避免扎带过紧损伤线缆),每 20cm 固定一次。
- 服务器后窗:每台服务器的 IB 网卡、以太网口、电源接口处线缆预留 10-15cm 冗余(便于服务器抽拉维护),但避免冗余过长导致机柜内杂乱。
2. 机房桥架与地板布线
- 桥架布局:天花板安装弱电桥架(分 IB、以太网、存储网络三区),地板下安装强电桥架(与弱电桥架错开投影位置),桥架转弯处曲率半径≥30cm(保护光纤)。
- 地板开孔:机柜下方地板开孔(直径≥10cm),线缆通过开孔进入机柜,孔内安装橡胶圈(防割伤线缆)。
3. 标识与文档
- 线缆标识:所有线缆两端用热缩管标签(耐高温、防脱落),标注 “源设备 - 端口→目标设备 - 端口”(如 “Leaf-A1-1 → S01-IB1”)。
- 文档记录:绘制布线拓扑图(含机柜、交换机、服务器位置及连接关系),用工具(如 NetBrain)自动生成网络拓扑,定期与实际布线核对更新。
五、冗余与扩展设计
- 冗余设计:电力(双 PDU、双电源线)、网络(双交换机、双端口连接)、桥架(预留备用槽位)均需冗余,避免单点故障影响集群。
- 扩展预留:
- 机柜内 PDU 预留 20% 端口,桥架预留 30% 空间(应对未来新增机器)。
- 网络交换机预留 10-15% 端口,光纤模块支持更高带宽(如当前用 100G,预留 400G 接口)。
六、验证与维护
- 布线后测试:
- 电力:用万用表测 PDU 输出电压,模拟单 PDU 断电验证服务器冗余供电是否生效。
- 网络:用
ib_write_bw
测试 IB 带宽(需达理论值 90% 以上),ping
测试延迟(IB 延迟应 < 10us),iperf
测试以太网带宽。
- 日常维护:定期(每月)检查线缆松动、标签脱落,用红外测温仪检测电源线温度(正常≤60℃),避免过载。