当前位置：首页 > news >正文

AI基础设施展望

news 2025/7/14 7:36:58

演讲者：谢崇进

AI计算：大规模并行计算

AI计算系统通常采用多种并行策略，以处理庞大的数据和复杂的模型，其中包括：

矢量并行 (Tensor Parallelism)： 这种并行方式主要针对数据中的张量（Tensors）进行划分，使得不同的计算单元可以同时处理张量的不同部分。
专家并行 (Expert Parallelism)： 在某些复杂的AI模型中，不同的“专家”模型或模型组件可以并行工作，每个专家负责处理输入数据的特定方面或执行特定的任务。
流水线并行 (Pipeline Parallelism)： 将一个大的计算任务分解成多个阶段，每个阶段由不同的计算单元处理，数据像流水线一样依次经过这些阶段。
数据并行 (Data Parallelism)： 这是最常见的并行方式之一，将大规模数据集分成若干小块，每个计算单元独立处理一个数据块，然后将结果汇总。

由于AI计算的这些并行特性，它对网络提出了更高的要求，尤其是在带宽（Bandwidth）和时延（Latency）方面。高带宽确保大量数据能够快速传输，而低时延则保证不同并行任务之间的数据同步和通信能够迅速完成，从而有效提升AI训练和推理的效率。

AI基础设施的核心特性

服务器差异：

通用计算主要依赖以X86 CPU（中央处理器）为主的通用计算服务器。

AI计算则侧重于以GPU（图形处理器）为主的高性能计算服务器。

网络区别：

通用计算的网络通常是数据中心内部的以太网。

AI计算的网络则需要基于RoCE（RDMA over Converged Ethernet）或IB（InfiniBand）等技术的高性能低延迟网络，以支持大量数据的高速传输。

数据中心挑战：

通用计算的数据中心主要关注功耗和计算密度。

AI计算的数据中心在功耗和计算密度方面面临更大的挑战，并且计算密度极高。

计算节点：

通用计算通常以单个服务器作为计算节点。

AI计算则会构成大规模集群或超级节点。

AI基础设施的关键要求与挑战
AI服务器：功耗更高、算力更强，对网络带宽的需求也更大。

AI集群网络：需要具备高吞吐量、低延迟和高可扩展性。

AI数据中心：功耗密度、能耗和散热方面大幅增加，对供电和散热带来了非常大的挑战。

超级节点：正加速成为主流。

总括而言，AI基础设施的构建需要针对其独特的高性能、高功耗和高密度特性进行专门设计，这与传统通用计算的基础设施有着根本性的不同。

数据中心散热与制冷的关键洞察
电力容量的显著增长：条形图展示了电力容量（Power Capacity）在十年间的急剧上升：

2013年和2017年均为12.6千瓦（kW）。

2022年增至33千瓦。

2023年更是达到80千瓦。
这一趋势强调了为应对日益强大的硬件所产生的热量，需要更高效、更强大的冷却系统。

高密度冷却需求：幻灯片提到了特定硬件的冷却能力：

GB200 NVL72 机架式设备需要120千瓦的散热能力。

Meta Catalina (GB200) 拥有高达1兆瓦（MW）的散热能力。兆瓦是一个等于一百万瓦特的功率单位，这突显了这类基础设施所产生和需要散发的巨大能量和热量。

液冷技术成为必然趋势：鉴于机架功率（Rack Power）的快速上升，幻灯片指出液冷技术（Liquid Cooling Technology）已成为不可或缺的解决方案。与传统的风冷不同，液冷能够更有效地带走大量热量，对于在高密度计算环境中保持最佳运行温度和防止过热至关重要。

总而言之，这张幻灯片清晰地传达了一个信息：随着计算能力的持续进步，冷却技术也必须随之发展，而液冷技术正成为未来技术发展中不可或缺的关键一环。

http://www.dtcms.com/a/277484.html

相关文章：

《Mirage：首款基于实时世界模型的AI原生UGC游戏引擎，开启“边玩边生成”的游戏新时代》

Python实现小红书悬停框效果详解

极矢量与轴矢量

框架和库的区别

MCP4725 数据手册解读

通信子网 V

cuda编程笔记（7）--多GPU上的CUDA

黑马点评系类问题p63中ClassPathResource报错

Claude Code AI 编程指南

在 Flow 取消时自动清理资源

构建可落地的企业AI Agent，背后隐藏着怎样的技术密码？

vue是什么

【读书笔记】《Effective Modern C++》第二章：auto

改进后的 OpenCV 5.x + GStreamer + Python 3.12 编译流程（适用于 Orange Pi / ARM64）

正则化-机器学习

Redis面试精讲 Day 2：Redis数据类型全解析

内存管理概念

Docker安装Nginx

Web：JS的三种引用方式

《每日AI-人工智能-编程日报》--2025年7月12日

Windows 常用命令

网络编程 JAVA

视觉语言导航与目标导航

【银行测试】基金项目测试详细，测试点+面试（一）

LangChain专家养成：工具扩展/Agent决策/记忆控制三维进阶

250707脑电分析课题进展——EEGLAB的使用

前端工程化-构建打包

大模型-量化技术

前端构建工具 Webpack 5 的优化策略与高级配置

[2025CVPR]DenoiseCP-Net：恶劣天气下基于LiDAR的高效集体感知模型