当前位置：首页 > news >正文

AMD三箭齐发：MI350已成AI加速器新王牌，256颗GPU的MI500“王炸”已预定2027

news 2025/9/6 11:52:36

在刚落幕的Hot Chips 2025大会上，AMD深入介绍了CDNA 4架构及MI350加速器，更清晰地勾勒出直至2027年的AI加速器路线图——MI400与MI500系列。这三代产品形成了“当下利器、明日杀器、未来重器”的组合拳，向业界展示了AMD争夺AI算力王座的强大野心与执行力。

MI350：如期而至，CDNA 4架构的成熟之作

与前代MI300类似，AMD采用3D晶圆堆叠技术构建强大芯片：将最多8个加速器复合晶粒（XCD）堆叠于一对I/O晶粒之上，形成拥有1850亿个晶体管的巨型芯片。随着大语言模型应用激增，AMD正抓住硬件需求浪潮。模型复杂度持续提升，长上下文推理需求增长，这就要求硬件提供更高内存带宽与容量，同时保持能效优势，并能通过多GPU集群支持超大规模模型。
在这里插入图片描述

MI350系列于今年如期交付，包含两个版本：风冷设计的MI350X和液冷设计的MI355X。该芯片延续小芯片与堆叠设计，计算晶粒置于基础晶粒之上，每个基础晶粒承载4个计算晶粒。液冷系统整板功耗为1.4千瓦。I/O晶粒仍采用6nm工艺，AMD表示更小制程对基础晶粒收益有限；而计算晶粒则采用台积电最新3nm N3P节点，以优化能效比。
在这里插入图片描述

MI350的Infinity Fabric架构针对减少的基础晶粒数量进行优化：2个基础晶粒降低了晶粒间穿越次数，支持更宽带宽、更低时钟的D2D连接以确保能效。每个插槽配备7个IF链接，第四代Infinity Fabric相比MI300使用的第三代带宽提升超过2TB/秒。大内存容量减少总体GPU需求，同步开销同步降低。

缓存与内存层次方面，局部数据存储器（LDS）容量较MI300翻倍。每个新型大尺寸I/O晶粒可承载4个计算晶粒，MI350共计集成8个XCD。峰值引擎时钟2.4GHz，每个XCD配备4MB L2缓存并支持跨XCD一致性。

CDNA 4架构使多数数据类型吞吐量提升近一倍，并新增FP6与FP4数据类型硬件支持。通过AI数据类型计算吞吐量的近乎翻倍，AMD宣称其性能可达竞品加速器的2倍以上。SoC逻辑框图展示了Infinity Fabric、无限缓存、内存与XCD的协同集成。
在这里插入图片描述

从平台视角看，MI350可配置为单一NUMA域或双NUMA域。访问跨基础晶粒的HBM会产生延迟，双NUMA域设计可限制XCD仅访问本地内存。除内存分区选项外，XCD还可拆分为多个计算分区，支持从单一域到每个XCD独立成GPU的灵活配置。
在这里插入图片描述

多插槽系统支持单基板集成8个GPU，采用Infinity Fabric全互联拓扑连接GPU，PCIe则用于连接主机CPU与网卡。AMD采用标准OAM模块封装MI350 GPU，通用基板(UBB)最多可承载8个模块。MI350X可直接兼容现有风冷MI300/MI325系统进行升级；而液冷MI355X平台性能更高，每GPU TDP达1.4千瓦，仍采用OAM模块但以紧凑直液冷冷板取代大型风冷散热器。
在这里插入图片描述

两款MI350平台内存容量与带宽相同，但计算性能因时钟频率差异而不同。对于超大规模数据中心，液冷机架可配置96或128个GPU，风冷方案则支持64GPU/机架。整机架解决方案采用全AMD芯片配置：GPU、CPU和扩展网卡。
在这里插入图片描述

MI400：2026年的性能猛兽，旨在定义性能边际

2023年的MI300X/300A，2024年的MI325X，2025年的MI350X/MI355X，2026年就是MI400系列。AMD声称，MI400系列将实现更大幅度的配置提升、性能跨越。
在这里插入图片描述

内存将升级为下一代HBM4，单卡容量高达恐怖的432GB，带宽19.6TB/s，对比MI350系列的288GB HEM3E、8TB/s分别增加50％、145％，平均每个CU单元的内存带宽也提升到300GB/s。
在这里插入图片描述

FP8/FP6、FP4性能分别达到20PFlops(2亿亿次每秒)、40PFlops(4亿亿次每秒)，直接翻番，事实上在某些应用中的极限性能提升幅度可达难以想象的10倍。

明年，AMD还将推出代号Vulcano(火山)的下一代Pensando网卡，依然符合UltraEthernet标准。新网卡将升级3nm制造工艺，支持PCIe 6.0，带宽翻番至800G(80万兆)！除了Instinct MI400系列加速器、Pensando Vulcano网卡，AMD明年还会推出代号“Venice”的下代EPYC处理器，升级Zen6架构。三者共同组成新的AI加速系统平台，AMD也会推出参考设计的AI机架方案，代号“Helios”。
在这里插入图片描述

Helios AI机架可容纳最多72块MI400系列GPU，对标NVIDIA NL72，总带宽260TB/s，HBM4内存总容量31TB、总带宽1.4PB/s，超过竞品足足一半。整机性能，可高达FP8 1.4EFlops(140亿亿次每秒)、FP4 2.9EFlops(290亿亿次每秒)，和竞品基本在同一水平上。
在这里插入图片描述

MI500：系统级宏图，Scale-Out的终极答案

继续向前，2027年，AMD还将推出再下一代的MI500系列，升级台积电14A 1.4nm工艺，搭配代号Verano的再下一代EPYC处理器，应该会升级到Zen7架构了！
在这里插入图片描述

据SemiAnalysis最新披露，该产品将集成256颗Instinct MI500系列GPU（注：2026年推出的Helios系统为72颗GPU，英伟达基于Kyber架构的NVL576系统配备144颗Rubin Ultra加速卡，每颗封装内含4个计算小芯片）。虽然未公布具体性能数据，但凭借更多GPU数量和升级的微架构，新系统预计将显著超越AMD自家2026年产品。

该"MI500 Scale Up MegaPod"系统（暂称MI500 UAL256架构）采用三机架互联设计：两侧机架各含32个计算托盘（每托盘配备1颗EPYC Verona CPU+4颗MI500加速器），中央机架部署18个UALink交换器托盘。整套系统共包含64个计算托盘，支撑256个GPU模块。与英伟达144颗GPU的Kyber VR300 NVL576相比，AMD方案GPU数量多出78%。但MI500 MegaPod能否抗衡配备147TB HBM4内存和14,400 FP4 PFLOPS算力的NVL576系统仍有待验证。
在这里插入图片描述

鉴于AI GPU功耗与发热量持续攀升，MI500 UAL256系统将为计算和网络托盘全面采用液冷方案。该平台预计2027年底上市，与英伟达VR300 NVL576 Kyber系统的发布时间相近，这意味着两家公司都将在2028年大规模量产其新一代机架级AI解决方案。

总结

未来AI算力竞争正从单纯的芯片性能比拼，升级为涵盖架构、互联、内存、能效、集群方案与软件生态的全维度“军备竞赛”。AMD通过MI350、MI400和MI500的三段式布局，不仅展示了其全栈技术能力，更预示着行业两大趋势：液冷技术因芯片功耗飙升将从选项变为标配，从而重构数据中心基础设施；而硬件军备竞赛的最终胜负手，将取决于软件生态（ROCm）能否将硬件实力转化为用户易用的生产力。这场白热化竞争有望打破市场垄断格局，推动AI算力从“一家独大”走向“双雄争霸”，最终为整个行业带来更多选择、更低成本与更快的创新迭代。