当前位置: 首页 > news >正文

AMD三箭齐发:MI350已成AI加速器新王牌,256颗GPU的MI500“王炸”已预定2027

在刚落幕的Hot Chips 2025大会上,AMD深入介绍了CDNA 4架构及MI350加速器,更清晰地勾勒出直至2027年的AI加速器路线图——MI400与MI500系列。这三代产品形成了“当下利器、明日杀器、未来重器”的组合拳,向业界展示了AMD争夺AI算力王座的强大野心与执行力。

MI350:如期而至,CDNA 4架构的成熟之作

与前代MI300类似,AMD采用3D晶圆堆叠技术构建强大芯片:将最多8个加速器复合晶粒(XCD)堆叠于一对I/O晶粒之上,形成拥有1850亿个晶体管的巨型芯片。随着大语言模型应用激增,AMD正抓住硬件需求浪潮。模型复杂度持续提升,长上下文推理需求增长,这就要求硬件提供更高内存带宽与容量,同时保持能效优势,并能通过多GPU集群支持超大规模模型。
在这里插入图片描述

MI350系列于今年如期交付,包含两个版本:风冷设计的MI350X和液冷设计的MI355X。该芯片延续小芯片与堆叠设计,计算晶粒置于基础晶粒之上,每个基础晶粒承载4个计算晶粒。液冷系统整板功耗为1.4千瓦。I/O晶粒仍采用6nm工艺,AMD表示更小制程对基础晶粒收益有限;而计算晶粒则采用台积电最新3nm N3P节点,以优化能效比。
在这里插入图片描述

MI350的Infinity Fabric架构针对减少的基础晶粒数量进行优化:2个基础晶粒降低了晶粒间穿越次数,支持更宽带宽、更低时钟的D2D连接以确保能效。每个插槽配备7个IF链接,第四代Infinity Fabric相比MI300使用的第三代带宽提升超过2TB/秒。大内存容量减少总体GPU需求,同步开销同步降低。

缓存与内存层次方面,局部数据存储器(LDS)容量较MI300翻倍。每个新型大尺寸I/O晶粒可承载4个计算晶粒,MI350共计集成8个XCD。峰值引擎时钟2.4GHz,每个XCD配备4MB L2缓存并支持跨XCD一致性。

CDNA 4架构使多数数据类型吞吐量提升近一倍,并新增FP6与FP4数据类型硬件支持。通过AI数据类型计算吞吐量的近乎翻倍,AMD宣称其性能可达竞品加速器的2倍以上。SoC逻辑框图展示了Infinity Fabric、无限缓存、内存与XCD的协同集成。
在这里插入图片描述

从平台视角看,MI350可配置为单一NUMA域或双NUMA域。访问跨基础晶粒的HBM会产生延迟,双NUMA域设计可限制XCD仅访问本地内存。除内存分区选项外,XCD还可拆分为多个计算分区,支持从单一域到每个XCD独立成GPU的灵活配置。
在这里插入图片描述

多插槽系统支持单基板集成8个GPU,采用Infinity Fabric全互联拓扑连接GPU,PCIe则用于连接主机CPU与网卡。AMD采用标准OAM模块封装MI350 GPU,通用基板(UBB)最多可承载8个模块。MI350X可直接兼容现有风冷MI300/MI325系统进行升级;而液冷MI355X平台性能更高,每GPU TDP达1.4千瓦,仍采用OAM模块但以紧凑直液冷冷板取代大型风冷散热器。
在这里插入图片描述

两款MI350平台内存容量与带宽相同,但计算性能因时钟频率差异而不同。对于超大规模数据中心,液冷机架可配置96或128个GPU,风冷方案则支持64GPU/机架。整机架解决方案采用全AMD芯片配置:GPU、CPU和扩展网卡。
在这里插入图片描述

MI400:2026年的性能猛兽,旨在定义性能边际

2023年的MI300X/300A,2024年的MI325X,2025年的MI350X/MI355X,2026年就是MI400系列。AMD声称,MI400系列将实现更大幅度的配置提升、性能跨越。
在这里插入图片描述

内存将升级为下一代HBM4,单卡容量高达恐怖的432GB,带宽19.6TB/s,对比MI350系列的288GB HEM3E、8TB/s分别增加50%、145%,平均每个CU单元的内存带宽也提升到300GB/s。
在这里插入图片描述

FP8/FP6、FP4性能分别达到20PFlops(2亿亿次每秒)、40PFlops(4亿亿次每秒),直接翻番,事实上在某些应用中的极限性能提升幅度可达难以想象的10倍。

明年,AMD还将推出代号Vulcano(火山)的下一代Pensando网卡,依然符合UltraEthernet标准。新网卡将升级3nm制造工艺,支持PCIe 6.0,带宽翻番至800G(80万兆)!除了Instinct MI400系列加速器、Pensando Vulcano网卡,AMD明年还会推出代号“Venice”的下代EPYC处理器,升级Zen6架构。三者共同组成新的AI加速系统平台,AMD也会推出参考设计的AI机架方案,代号“Helios”。
在这里插入图片描述

Helios AI机架可容纳最多72块MI400系列GPU,对标NVIDIA NL72,总带宽260TB/s,HBM4内存总容量31TB、总带宽1.4PB/s,超过竞品足足一半。整机性能,可高达FP8 1.4EFlops(140亿亿次每秒)、FP4 2.9EFlops(290亿亿次每秒),和竞品基本在同一水平上。
在这里插入图片描述

MI500:系统级宏图,Scale-Out的终极答案

继续向前,2027年,AMD还将推出再下一代的MI500系列,升级台积电14A 1.4nm工艺,搭配代号Verano的再下一代EPYC处理器,应该会升级到Zen7架构了!
在这里插入图片描述

据SemiAnalysis最新披露,该产品将集成256颗Instinct MI500系列GPU(注:2026年推出的Helios系统为72颗GPU,英伟达基于Kyber架构的NVL576系统配备144颗Rubin Ultra加速卡,每颗封装内含4个计算小芯片)。虽然未公布具体性能数据,但凭借更多GPU数量和升级的微架构,新系统预计将显著超越AMD自家2026年产品。

该"MI500 Scale Up MegaPod"系统(暂称MI500 UAL256架构)采用三机架互联设计:两侧机架各含32个计算托盘(每托盘配备1颗EPYC Verona CPU+4颗MI500加速器),中央机架部署18个UALink交换器托盘。整套系统共包含64个计算托盘,支撑256个GPU模块。与英伟达144颗GPU的Kyber VR300 NVL576相比,AMD方案GPU数量多出78%。但MI500 MegaPod能否抗衡配备147TB HBM4内存和14,400 FP4 PFLOPS算力的NVL576系统仍有待验证。
在这里插入图片描述

鉴于AI GPU功耗与发热量持续攀升,MI500 UAL256系统将为计算和网络托盘全面采用液冷方案。该平台预计2027年底上市,与英伟达VR300 NVL576 Kyber系统的发布时间相近,这意味着两家公司都将在2028年大规模量产其新一代机架级AI解决方案。

总结

未来AI算力竞争正从单纯的芯片性能比拼,升级为涵盖架构、互联、内存、能效、集群方案与软件生态的全维度“军备竞赛”。AMD通过MI350、MI400和MI500的三段式布局,不仅展示了其全栈技术能力,更预示着行业两大趋势:液冷技术因芯片功耗飙升将从选项变为标配,从而重构数据中心基础设施;而硬件军备竞赛的最终胜负手,将取决于软件生态(ROCm) 能否将硬件实力转化为用户易用的生产力。这场白热化竞争有望打破市场垄断格局,推动AI算力从“一家独大”走向“双雄争霸”,最终为整个行业带来更多选择、更低成本与更快的创新迭代。


文章转载自:

http://IgOlBDHJ.sbrrf.cn
http://5DjQQNYB.sbrrf.cn
http://W61iY7Ub.sbrrf.cn
http://JDgwnql5.sbrrf.cn
http://PUU8GmO7.sbrrf.cn
http://F2P5VEzq.sbrrf.cn
http://nQls4XSg.sbrrf.cn
http://NCf2cOwK.sbrrf.cn
http://bRzh6QPr.sbrrf.cn
http://yy9tOxLY.sbrrf.cn
http://WEEeSjo6.sbrrf.cn
http://sZWXDdun.sbrrf.cn
http://YTa7Pa4P.sbrrf.cn
http://REhUv6t2.sbrrf.cn
http://z1UyjM4S.sbrrf.cn
http://JkO7anqc.sbrrf.cn
http://HHkmGc3F.sbrrf.cn
http://Sts447YM.sbrrf.cn
http://WL2atfhq.sbrrf.cn
http://NnhSV0HK.sbrrf.cn
http://AYRh04Qw.sbrrf.cn
http://JYx4i6Gg.sbrrf.cn
http://ltKYuL9T.sbrrf.cn
http://8REyEmgD.sbrrf.cn
http://hYJZDAZ7.sbrrf.cn
http://rNXwOot9.sbrrf.cn
http://DOwOLla7.sbrrf.cn
http://1ta8i4n3.sbrrf.cn
http://WFulAohF.sbrrf.cn
http://4kI9aI3I.sbrrf.cn
http://www.dtcms.com/a/369285.html

相关文章:

  • Docker Registry 实现原理、适用场景、常用操作及搭建详解
  • CAD:绘图功能
  • DeepSeek vs Anthropic:技术路线的正面冲突
  • spring cloud中使用openFeign时候get请求变post解决办法
  • 系统学习算法 专题十八 队列+宽搜
  • 【c++】c++第一课:命名空间
  • Graphpad 绘图(二):小鼠生存曲线绘制与数据记录分析详解
  • DNS基本功能搭建
  • C++Primerplus 编程练习 第十二章
  • 看见世界的另一种可能:Deepoc星眸(StarGaze)如何为视障生活带来曙光
  • Springboot实现国际化(MessageSource)
  • 告别Qt Slider!用纯C++打造更轻量的TpSlider组件
  • 数字孪生赋能:智能制造如何实现从“经验驱动”到“数据驱动”?
  • 穿越市场迷雾:如何在经济周期中保持理性与长期视角
  • Mac M4环境下基于VMware Fusion虚拟机安装Ubuntu24.04 LTS ARM版
  • Vue基础知识-脚手架开发-使用Axios发送异步请求+代理服务器解决前后端分离项目的跨域问题
  • 苍穹外卖 day03
  • 【学习笔记】解决 JWT 解析报错:Claims claims = JwtUtil.parseJWT(...) Error Code 401(token过期)
  • linux下快捷删除单词、行的命令
  • AI提示词增强丨用EARS语法进行产品原子化拆解
  • 概率论第三讲——多维随机变量及其分布
  • 重大更新Claude更新用户协议把中国列为敌对国家
  • 移植Qt4.8.7到ARM40-A5
  • C++语言编程规范-初始化和类型转换
  • Gartner发布2025年数据安全领域的先锋厂商:GenAI和量子计算时代的数据安全创造性技术、产品和服务
  • 微前端架构:解构前端巨石应用的艺术
  • uniapp开发前端静态视频界面+如何将本地视频转换成网络地址
  • EI会议:第三届大数据、计算智能与应用国际会议(BDCIA 2025)
  • 9.5C++作业
  • 数据库基础知识——聚合函数、分组查询