UALink是什么?
在AI和高性能计算(HPC)领域,连接技术才是实现计算加速器芯片之间高效通信的关键。
目前,NVIDIA拥有一系列用于跨多个GPU和系统扩展工作负载的技术,包括芯片间和封装间互连(D2D)、用于服务器或pod中GPU到GPU通信的NVLink、用于pod间扩展的InfiniBand,以及连接到更广泛基础设施的Ethernet。
Ultra Ethernet使用增强的Ethernet来作为InfiniBand的替代方案。
AMD、英特尔、谷歌、微软、博通、思科、Meta、惠普企业等八家科技巨头联合组建了一个新的行业联盟——UALink Promoter Group(简称UALink)。这一联盟的成立标志着这些科技巨头将共同推动AI加速器芯片之间连接组件的发展,直接对抗NVIDIA的NVLink技术。
UALink(Ultra Accelerator Link)是一项开放的行业标准,旨在连接数据中心内的AI加速器芯片,以满足日益增长的计算密集型工作负载的需求。
与NVLink不同,UALink的目标是提供一个可扩展的、高性能的连接解决方案,支持AI和HPC应用,并允许多达1024个GPU AI加速器的连接,组成一个计算“集群”(pod),意指服务器中的一个或多个机架。
根据UALink推广组的说法,基于包括AMD的Infinity Fabric在内的“开放标准”,UALink 1.0将允许AI加速器所附带的内存之间的直接加载和存储,并且与现有互连规范相比,总体上将提高速度,同时降低数据传输延迟。
目前,博通公司已经开始使用AMD Infinity Fabric AFL生产UALink交换机。
UALink计划在2024年第三季度成立一个官方行业联盟,并向加入该联盟的公司提供UALink 1.0技术。该技术将能够在单个集群中连接多达1024个AI加速器,通过将大量加速器连接在一起,共同完成大规模计算任务。
此外,该组织2024年第四季度还将发布第一轮迭代版本UALink 1.1,提供更高的带宽。
UEC认为UALink通过纵向扩展来解决容器组集群问题的方法与自己的横向扩展协议形成互补。
值得一提的是,Broadcom等公司凭借UALink技术,打造出UALink交换机,助力企业轻松扩展规模,实现多家公司加速器的灵活联通,这一创新技术正引领行业新风向。
Broadcom Atlas交换机计划挑战AMD Infinity Fabric与NVIDIA NVLink,将UALink V1.0技术融入PCIe Gen7架构。