AI基础设施展望
演讲者:谢崇进
AI计算:大规模并行计算
AI计算系统通常采用多种并行策略,以处理庞大的数据和复杂的模型,其中包括:
- 矢量并行 (Tensor Parallelism): 这种并行方式主要针对数据中的张量(Tensors)进行划分,使得不同的计算单元可以同时处理张量的不同部分。
- 专家并行 (Expert Parallelism): 在某些复杂的AI模型中,不同的“专家”模型或模型组件可以并行工作,每个专家负责处理输入数据的特定方面或执行特定的任务。
- 流水线并行 (Pipeline Parallelism): 将一个大的计算任务分解成多个阶段,每个阶段由不同的计算单元处理,数据像流水线一样依次经过这些阶段。
- 数据并行 (Data Parallelism): 这是最常见的并行方式之一,将大规模数据集分成若干小块,每个计算单元独立处理一个数据块,然后将结果汇总。
由于AI计算的这些并行特性,它对网络提出了更高的要求,尤其是在带宽(Bandwidth)和时延(Latency)方面。高带宽确保大量数据能够快速传输,而低时延则保证不同并行任务之间的数据同步和通信能够迅速完成,从而有效提升AI训练和推理的效率。
AI基础设施的核心特性
服务器差异:
通用计算主要依赖以X86 CPU(中央处理器)为主的通用计算服务器。
AI计算则侧重于以GPU(图形处理器)为主的高性能计算服务器。
网络区别:
通用计算的网络通常是数据中心内部的以太网。
AI计算的网络则需要基于RoCE(RDMA over Converged Ethernet)或IB(InfiniBand)等技术的高性能低延迟网络,以支持大量数据的高速传输。
数据中心挑战:
通用计算的数据中心主要关注功耗和计算密度。
AI计算的数据中心在功耗和计算密度方面面临更大的挑战,并且计算密度极高。
计算节点:
通用计算通常以单个服务器作为计算节点。
AI计算则会构成大规模集群或超级节点。
AI基础设施的关键要求与挑战
AI服务器: 功耗更高、算力更强,对网络带宽的需求也更大。
AI集群网络: 需要具备高吞吐量、低延迟和高可扩展性。
AI数据中心: 功耗密度、能耗和散热方面大幅增加,对供电和散热带来了非常大的挑战。
超级节点: 正加速成为主流。
总括而言,AI基础设施的构建需要针对其独特的高性能、高功耗和高密度特性进行专门设计,这与传统通用计算的基础设施有着根本性的不同。
数据中心散热与制冷的关键洞察
电力容量的显著增长: 条形图展示了电力容量(Power Capacity)在十年间的急剧上升:
2013年和2017年均为12.6千瓦(kW)。
2022年增至33千瓦。
2023年更是达到80千瓦。
这一趋势强调了为应对日益强大的硬件所产生的热量,需要更高效、更强大的冷却系统。
高密度冷却需求: 幻灯片提到了特定硬件的冷却能力:
GB200 NVL72 机架式设备需要120千瓦的散热能力。
Meta Catalina (GB200) 拥有高达1兆瓦(MW)的散热能力。兆瓦是一个等于一百万瓦特的功率单位,这突显了这类基础设施所产生和需要散发的巨大能量和热量。
液冷技术成为必然趋势: 鉴于机架功率(Rack Power)的快速上升,幻灯片指出液冷技术(Liquid Cooling Technology)已成为不可或缺的解决方案。与传统的风冷不同,液冷能够更有效地带走大量热量,对于在高密度计算环境中保持最佳运行温度和防止过热至关重要。
总而言之,这张幻灯片清晰地传达了一个信息:随着计算能力的持续进步,冷却技术也必须随之发展,而液冷技术正成为未来技术发展中不可或缺的关键一环。