AMD三箭齐发:MI350已成AI加速器新王牌,256颗GPU的MI500“王炸”已预定2027
在刚落幕的Hot Chips 2025大会上,AMD深入介绍了CDNA 4架构及MI350加速器,更清晰地勾勒出直至2027年的AI加速器路线图——MI400与MI500系列。这三代产品形成了“当下利器、明日杀器、未来重器”的组合拳,向业界展示了AMD争夺AI算力王座的强大野心与执行力。
MI350:如期而至,CDNA 4架构的成熟之作
与前代MI300类似,AMD采用3D晶圆堆叠技术构建强大芯片:将最多8个加速器复合晶粒(XCD)堆叠于一对I/O晶粒之上,形成拥有1850亿个晶体管的巨型芯片。随着大语言模型应用激增,AMD正抓住硬件需求浪潮。模型复杂度持续提升,长上下文推理需求增长,这就要求硬件提供更高内存带宽与容量,同时保持能效优势,并能通过多GPU集群支持超大规模模型。
MI350系列于今年如期交付,包含两个版本:风冷设计的MI350X和液冷设计的MI355X。该芯片延续小芯片与堆叠设计,计算晶粒置于基础晶粒之上,每个基础晶粒承载4个计算晶粒。液冷系统整板功耗为1.4千瓦。I/O晶粒仍采用6nm工艺,AMD表示更小制程对基础晶粒收益有限;而计算晶粒则采用台积电最新3nm N3P节点,以优化能效比。
MI350的Infinity Fabric架构针对减少的基础晶粒数量进行优化:2个基础晶粒降低了晶粒间穿越次数,支持更宽带宽、更低时钟的D2D连接以确保能效。每个插槽配备7个IF链接,第四代Infinity Fabric相比MI300使用的第三代带宽提升超过2TB/秒。大内存容量减少总体GPU需求,同步开销同步降低。
缓存与内存层次方面,局部数据存储器(LDS)容量较MI300翻倍。每个新型大尺寸I/O晶粒可承载4个计算晶粒,MI350共计集成8个XCD。峰值引擎时钟2.4GHz,每个XCD配备4MB L2缓存并支持跨XCD一致性。
CDNA 4架构使多数数据类型吞吐量提升近一倍,并新增FP6与FP4数据类型硬件支持。通过AI数据类型计算吞吐量的近乎翻倍,AMD宣称其性能可达竞品加速器的2倍以上。SoC逻辑框图展示了Infinity Fabric、无限缓存、内存与XCD的协同集成。
从平台视角看,MI350可配置为单一NUMA域或双NUMA域。访问跨基础晶粒的HBM会产生延迟,双NUMA域设计可限制XCD仅访问本地内存。除内存分区选项外,XCD还可拆分为多个计算分区,支持从单一域到每个XCD独立成GPU的灵活配置。
多插槽系统支持单基板集成8个GPU,采用Infinity Fabric全互联拓扑连接GPU,PCIe则用于连接主机CPU与网卡。AMD采用标准OAM模块封装MI350 GPU,通用基板(UBB)最多可承载8个模块。MI350X可直接兼容现有风冷MI300/MI325系统进行升级;而液冷MI355X平台性能更高,每GPU TDP达1.4千瓦,仍采用OAM模块但以紧凑直液冷冷板取代大型风冷散热器。
两款MI350平台内存容量与带宽相同,但计算性能因时钟频率差异而不同。对于超大规模数据中心,液冷机架可配置96或128个GPU,风冷方案则支持64GPU/机架。整机架解决方案采用全AMD芯片配置:GPU、CPU和扩展网卡。
MI400:2026年的性能猛兽,旨在定义性能边际
2023年的MI300X/300A,2024年的MI325X,2025年的MI350X/MI355X,2026年就是MI400系列。AMD声称,MI400系列将实现更大幅度的配置提升、性能跨越。
内存将升级为下一代HBM4,单卡容量高达恐怖的432GB,带宽19.6TB/s,对比MI350系列的288GB HEM3E、8TB/s分别增加50%、145%,平均每个CU单元的内存带宽也提升到300GB/s。
FP8/FP6、FP4性能分别达到20PFlops(2亿亿次每秒)、40PFlops(4亿亿次每秒),直接翻番,事实上在某些应用中的极限性能提升幅度可达难以想象的10倍。
明年,AMD还将推出代号Vulcano(火山)的下一代Pensando网卡,依然符合UltraEthernet标准。新网卡将升级3nm制造工艺,支持PCIe 6.0,带宽翻番至800G(80万兆)!除了Instinct MI400系列加速器、Pensando Vulcano网卡,AMD明年还会推出代号“Venice”的下代EPYC处理器,升级Zen6架构。三者共同组成新的AI加速系统平台,AMD也会推出参考设计的AI机架方案,代号“Helios”。
Helios AI机架可容纳最多72块MI400系列GPU,对标NVIDIA NL72,总带宽260TB/s,HBM4内存总容量31TB、总带宽1.4PB/s,超过竞品足足一半。整机性能,可高达FP8 1.4EFlops(140亿亿次每秒)、FP4 2.9EFlops(290亿亿次每秒),和竞品基本在同一水平上。
MI500:系统级宏图,Scale-Out的终极答案
继续向前,2027年,AMD还将推出再下一代的MI500系列,升级台积电14A 1.4nm工艺,搭配代号Verano的再下一代EPYC处理器,应该会升级到Zen7架构了!
据SemiAnalysis最新披露,该产品将集成256颗Instinct MI500系列GPU(注:2026年推出的Helios系统为72颗GPU,英伟达基于Kyber架构的NVL576系统配备144颗Rubin Ultra加速卡,每颗封装内含4个计算小芯片)。虽然未公布具体性能数据,但凭借更多GPU数量和升级的微架构,新系统预计将显著超越AMD自家2026年产品。
该"MI500 Scale Up MegaPod"系统(暂称MI500 UAL256架构)采用三机架互联设计:两侧机架各含32个计算托盘(每托盘配备1颗EPYC Verona CPU+4颗MI500加速器),中央机架部署18个UALink交换器托盘。整套系统共包含64个计算托盘,支撑256个GPU模块。与英伟达144颗GPU的Kyber VR300 NVL576相比,AMD方案GPU数量多出78%。但MI500 MegaPod能否抗衡配备147TB HBM4内存和14,400 FP4 PFLOPS算力的NVL576系统仍有待验证。
鉴于AI GPU功耗与发热量持续攀升,MI500 UAL256系统将为计算和网络托盘全面采用液冷方案。该平台预计2027年底上市,与英伟达VR300 NVL576 Kyber系统的发布时间相近,这意味着两家公司都将在2028年大规模量产其新一代机架级AI解决方案。
总结
未来AI算力竞争正从单纯的芯片性能比拼,升级为涵盖架构、互联、内存、能效、集群方案与软件生态的全维度“军备竞赛”。AMD通过MI350、MI400和MI500的三段式布局,不仅展示了其全栈技术能力,更预示着行业两大趋势:液冷技术因芯片功耗飙升将从选项变为标配,从而重构数据中心基础设施;而硬件军备竞赛的最终胜负手,将取决于软件生态(ROCm) 能否将硬件实力转化为用户易用的生产力。这场白热化竞争有望打破市场垄断格局,推动AI算力从“一家独大”走向“双雄争霸”,最终为整个行业带来更多选择、更低成本与更快的创新迭代。