Nvidia - NVLink Fusion
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
在本周于台北举办的 Computex 大会上,Nvidia 宣布将其高速互联技术 NVLink 的应用范围扩大,引入名为 NVLink Fusion 的新版本,以支持更广泛的计算生态系统。这一变化标志着 Nvidia 正在尝试将其长期封闭的加速器互联标准向部分第三方芯片设计商开放。
NVLink 简介与演进
NVLink 是 Nvidia 自研的一种高带宽互联技术,用于将多个 GPU 在一个系统或服务器机架中连接起来,使其能像单一加速器一样共享计算与内存资源。目前第五代 NVLink 支持每块 GPU 高达 1.8 TB/s 的带宽(双向各 900 GB/s),可在一个机架中连接多达 72 块 GPU。
然而,直到此次发布之前,NVLink 仅限用于 Nvidia 自家的 GPU 和 CPU,其他厂商的芯片无法接入该互联网络。
NVLink Fusion 带来的突破
NVLink Fusion 的推出意味着 Nvidia 将允许部分 非 Nvidia 设计的加速器(包括半定制 CPU 和 ASIC) 接入该高性能互联网络。根据 Nvidia 高性能计算、云与 AI 高级总监 Dion Harris 的介绍,NVLink Fusion 将提供两种配置方式:
- 自定义 CPU 连接 Nvidia GPU:
通过 NVLink 实现 CPU 与 GPU 间的数据通信,其带宽可达到 PCIe 5.0 的 14 倍(约 128 GB/s),显著提升异构计算系统的效率。 - Nvidia CPU 连接非 Nvidia 加速器:
例如 Grace 或未来的 Vera CPU 将支持通过 NVLink Fusion 与第三方加速器互联,这可以通过在加速器设计中集成 NVLink IP 或在封装中加入支持互联的 chiplet 实现。
这种配置为未来构建混合架构的“超级芯片”打开了可能性,例如由 Nvidia CPU 配合 AMD、Intel 等其他厂商的 GPU 或加速器组成的系统。但前提是必须至少有一方是 Nvidia 芯片。也就是说,用户无法通过 NVLink Fusion 将 Intel CPU 直接连接到 AMD GPU。Nvidia 并未完全开放 NVLink 标准,其互联使用权需绑定其 CPU 或 GPU 产品。
行业支持与限制
目前已宣布支持 NVLink Fusion 的厂商包括:MediaTek、Marvell、AIchip、Astera Labs、Synopsys 和 Cadence 等。这些企业将从设计层面支持 NVLink Fusion 接入能力。富士通(Fujitsu)和高通(Qualcomm)也已计划基于该技术设计定制 CPU。
然而,Intel 和 AMD 目前并不在支持名单之列,且未来是否加入仍存疑。这两家公司正主推 Ultra Accelerator Link(UALink),这是一个开放式的互联标准,被视作 NVLink 的替代方案。该联盟于上月发布了首个规范 UALink 200G,当前每条通道最高支持 50 GB/s 的双向带宽,最多连接 1024 个加速器。尽管其理论速度低于 NVLink,但 UALink 采用更灵活的通道聚合方式,也可实现大带宽连接。
DGX Cloud Lepton:GPU 租用新平台
在此次 Computex 大会上,Nvidia 还推出了 DGX Cloud Lepton,一个面向开发者的 GPU 资源租用市场。该平台类似于“计算版的打车软件”,由 Nvidia DGX Cloud 副总裁 Alexis Bjorlin 形容为将开发者与全球 GPU 资源进行匹配的平台。
在 Lepton 平台初期测试阶段,已有包括 CoreWeave、Crusoe、Firmus、Foxconn、GMI Cloud、Lambda、Nscale、软银和 Yotta 等多家合作伙伴提供了“数万张 GPU”供开发者部署工作负载使用。
作为 DGX Cloud 的一部分,Nvidia 也将借机推广其 Inference Microservices(NIMs)、蓝图模板和云函数组件。虽然该构想具有创新性,但并非首创。例如 Akash Network 在 2020 年便推出了类似的去中心化计算市场,到 2023 年,其 90% 的业务收入已来自 GPU 租用。
总结
通过开放 NVLink Fusion 和推出 Lepton 市场,Nvidia 正进一步巩固其在异构计算与 GPU 云服务领域的主导地位。尽管 NVLink 并未完全开放,但其朝向更灵活连接架构的转型,无疑将影响未来数据中心和 AI 加速平台的设计趋势。与此同时,来自 Intel 和 AMD 推动的开放标准 UALink 也将在市场上与之展开较量,行业生态将在开放性与性能之间寻求新的平衡点。