当前位置: 首页 > news >正文

AI基础设施展望

演讲者:谢崇进

AI计算:大规模并行计算

AI计算系统通常采用多种并行策略,以处理庞大的数据和复杂的模型,其中包括:

  • 矢量并行 (Tensor Parallelism): 这种并行方式主要针对数据中的张量(Tensors)进行划分,使得不同的计算单元可以同时处理张量的不同部分。
  • 专家并行 (Expert Parallelism): 在某些复杂的AI模型中,不同的“专家”模型或模型组件可以并行工作,每个专家负责处理输入数据的特定方面或执行特定的任务。
  • 流水线并行 (Pipeline Parallelism): 将一个大的计算任务分解成多个阶段,每个阶段由不同的计算单元处理,数据像流水线一样依次经过这些阶段。
  • 数据并行 (Data Parallelism): 这是最常见的并行方式之一,将大规模数据集分成若干小块,每个计算单元独立处理一个数据块,然后将结果汇总。

由于AI计算的这些并行特性,它对网络提出了更高的要求,尤其是在带宽(Bandwidth)和时延(Latency)方面。高带宽确保大量数据能够快速传输,而低时延则保证不同并行任务之间的数据同步和通信能够迅速完成,从而有效提升AI训练和推理的效率。

AI基础设施的核心特性

服务器差异:

通用计算主要依赖以X86 CPU(中央处理器)为主的通用计算服务器。

AI计算则侧重于以GPU(图形处理器)为主的高性能计算服务器。

网络区别:

通用计算的网络通常是数据中心内部的以太网。

AI计算的网络则需要基于RoCE(RDMA over Converged Ethernet)或IB(InfiniBand)等技术的高性能低延迟网络,以支持大量数据的高速传输。

数据中心挑战:

通用计算的数据中心主要关注功耗和计算密度。

AI计算的数据中心在功耗和计算密度方面面临更大的挑战,并且计算密度极高。

计算节点:

通用计算通常以单个服务器作为计算节点。

AI计算则会构成大规模集群或超级节点。

AI基础设施的关键要求与挑战
AI服务器: 功耗更高、算力更强,对网络带宽的需求也更大。

AI集群网络: 需要具备高吞吐量、低延迟和高可扩展性。

AI数据中心: 功耗密度、能耗和散热方面大幅增加,对供电和散热带来了非常大的挑战。

超级节点: 正加速成为主流。

总括而言,AI基础设施的构建需要针对其独特的高性能、高功耗和高密度特性进行专门设计,这与传统通用计算的基础设施有着根本性的不同。

数据中心散热与制冷的关键洞察
电力容量的显著增长: 条形图展示了电力容量(Power Capacity)在十年间的急剧上升:

2013年和2017年均为12.6千瓦(kW)。

2022年增至33千瓦。

2023年更是达到80千瓦。
这一趋势强调了为应对日益强大的硬件所产生的热量,需要更高效、更强大的冷却系统。

高密度冷却需求: 幻灯片提到了特定硬件的冷却能力:

GB200 NVL72 机架式设备需要120千瓦的散热能力。

Meta Catalina (GB200) 拥有高达1兆瓦(MW)的散热能力。兆瓦是一个等于一百万瓦特的功率单位,这突显了这类基础设施所产生和需要散发的巨大能量和热量。

液冷技术成为必然趋势: 鉴于机架功率(Rack Power)的快速上升,幻灯片指出液冷技术(Liquid Cooling Technology)已成为不可或缺的解决方案。与传统的风冷不同,液冷能够更有效地带走大量热量,对于在高密度计算环境中保持最佳运行温度和防止过热至关重要。

总而言之,这张幻灯片清晰地传达了一个信息:随着计算能力的持续进步,冷却技术也必须随之发展,而液冷技术正成为未来技术发展中不可或缺的关键一环。

http://www.dtcms.com/a/277484.html

相关文章:

  • 《Mirage:首款基于实时世界模型的AI原生UGC游戏引擎,开启“边玩边生成”的游戏新时代》
  • Python实现小红书悬停框效果详解
  • 极矢量与轴矢量
  • 框架和库的区别
  • MCP4725 数据手册解读
  • 通信子网 V
  • cuda编程笔记(7)--多GPU上的CUDA
  • 黑马点评系类问题p63中ClassPathResource报错
  • Claude Code AI 编程指南
  • 在 Flow 取消时自动清理资源
  • 构建可落地的企业AI Agent,背后隐藏着怎样的技术密码?
  • vue是什么
  • 【读书笔记】《Effective Modern C++》第二章:auto
  • 改进后的 OpenCV 5.x + GStreamer + Python 3.12 编译流程(适用于 Orange Pi / ARM64)
  • 正则化-机器学习
  • Redis面试精讲 Day 2:Redis数据类型全解析
  • 内存管理概念
  • Docker安装Nginx
  • Web:JS的三种引用方式
  • 《每日AI-人工智能-编程日报》--2025年7月12日
  • Windows 常用命令
  • 网络编程 JAVA
  • 视觉语言导航与目标导航
  • 【银行测试】基金项目测试详细,测试点+面试(一)
  • ​​LangChain专家养成:工具扩展/Agent决策/记忆控制三维进阶
  • 250707脑电分析课题进展——EEGLAB的使用
  • 前端工程化-构建打包
  • 大模型-量化技术
  • 前端构建工具 Webpack 5 的优化策略与高级配置
  • [2025CVPR]DenoiseCP-Net:恶劣天气下基于LiDAR的高效集体感知模型