全栈智算系列直播 | 智算中心对网络的需求与应对策略(上)
国内高质量开源大语言模型争奇斗艳,带动了业内对AI Infra的关注。益企研究院策划了“全栈智算系列直播”,将与众多专家共同探讨智算中心构建过程中,会面临的网络、安全、多元异构算力服务器以及存储等多种选择与挑战。
首先,我们策划了本系列中的第一期直播:AI智能体时代,智算中心的网络应该如何选择?
在本期直播中,益企研究院邀请了来自吉利、中国移动、新华三、安捷诺的专家,共同探讨了这个话题。本文摘编了此次直播中各位专家的精彩观点,要观看此次直播的更多细节,请关注益企研究院视频号,或者点击阅读原文,观看直播回放。
本次直播由益企研究院联合创始人王海峰主持,参与专家包括吉利智算网络技术专家宋中伟、中国移动通信集团设计院研究总监、正高级工程师封铎、安捷诺亚太区产品总监王君原、益企研究院创始人张广彬、新华三集团交换机产品线产品管理部总监陈伯超。

由于篇幅原因,本期直播的精彩观点将分为上下两期分享,本文为上篇。
话题一:智算中心对网络的要求与传统的计算中心有什么区别?
封铎:传统计算中心,也就是通用计算所用的网络,对带宽、拥塞的要求没那么高。智算中,加速卡间互通的数据量大,拥塞要求比较高。智算中心后端网络在规划的时候,通常是要求无收敛、无拥塞,这是一个比较明显特征。其次就是集群做得越来越大,从千卡、万卡,到现在 10 万卡,甚至有更大的规模。如何组建一个无收敛、无拥塞的大规模网络是一个非常大的挑战。智算中心对网络带宽的高需求,使得网络性能成为制约前端算力充分发挥的瓶颈。
宋中伟:算力非常昂贵,因为它是一切人工智能的源头。自动驾驶依赖车端边缘算力进行决策和执行,依靠数据中心的云端算力提供训练和模型优化以提升车端模型的泛化能力。吉利千里浩瀚智能体需要越来越聪明,采集和训练的数据日益增长,目前智能驾驶和车联网实验数据已经达到了数百 PB的量级,今年预计会突破 EB级别。如此庞大一个数据量,算力需求也日益激增,但是数据中心受到供电和占地面积的限制,导致算力难以扩展。在这种背景下,我们可能需要考虑跨数据中心的训练,整合碎片化的算力,提升智算中心的利用率。
探索长距离数据中心的发展需要高带宽和无损的传输能力。AI 训练网络普遍采用RDMA 协议,其效率依赖于极低的丢包率。根据相关实验数据,RDMA协议下丢包率大于 1%,吞吐量就会急剧下降,2%的丢包率就会使吞吐量降到零。数据中心之间跨集群训练需要无损和低延时传输的网络底座。分布式训练场景需要充足的带宽和灵活的组网能力,需要协同优化IP层和光传输层,优化集合通信算法,增加链路、负载均衡、精准的流控,减少流量交叠。长距离传输会受到硬时延的限制,譬如距离每增加10公里,延迟会增加10毫秒左右,因此当前跨数据中心高性能无损传输的距离应该就在300公里以内。
单集群的组网常用胖树结构和叶脊结构的网络拓扑。叶脊网络架构是扁平的,成本较低,适应中大规模的智算集群的应用。叶脊架构在同一叶交换机下的任意GPU一跳就可以访问,跨叶交换机是固定的三跳。二层交换机的架构最多支持256台8卡服务器,最多接入两千多张卡。在这个架构中,节点扩展会受限于交换机的接入容量。在交换机支持端口数量短期无法跃升的情况下,传统的多级架构需要往三层以上发展,会增加网络的转发跳数,带来较大的延时。
陈伯超:智算网络和通算网络最大的区别是服务的对象不一样。通算网络服务于CPU 的输出,服务于硬盘、SSD,这个吞吐量与智算网络服务于GPU显存的吞吐量不是一个量级的。显存的吞吐是TB/s级的,而网络是200Gb/s、400Gb/s,目前再快的网络相对于智算业务需求而言都是不够的,只能是尽所能做到最快。对于智算网络的趋势而言,“快”不是唯一的,但是最主要的命题。
第二个就是“大”。大语言模型参数的增长是成指数级的,现在是千亿,然后万亿级,将来10万亿,在软件上可以实现,但会受到硬件的制约。GPU受到制造工艺等硬件设计的影响,算力提升没有软件那么快,可行的实现方法就是算力卡数越来越多,新的模型需要数倍的卡去训练。
第三个叫“优”,就是说网络不但要带宽大足够大、规模足够大,还要能跑通。
王君原:网络布线与物理层有关,与互联端口有关。大家都谈到了规模的问题,网络架构由量变产生了质变,架构从两层到三层,未来可能还有更复杂的层级。在各种端口互联的过程中,由于架构的复杂性,互联的环境也变得很复杂,需要考虑如何保证各个端口之间的连通,同时工作稳定、有效,还要易于管理。在百卡、千卡的情况下,只要有标准的操作流程规范,就能实现简单的管理。但是对于万卡、10 万卡级的互联,单靠规则是不够的,需要有一些前期的规划与策略。
对于跨集群互联,也就是到了数据中心与数据中心之间互联的情况,是公里级,甚至于是几十公里级的场景。这种场景下可选的只有单模光纤。单模光纤几十公里距离内由于物理层所造成的时延是10 微秒级的。相对于网络复杂性导致的几个多跳带来的时延,长距离光纤传输引入的时延可以忽略不计。简而言之,时延在物理介质层上不是什么大问题,我们重点是要关注网络的架构、网络的设计方面去降低时延。
话题二:跨域训练
张广彬:刚才提到了分布式(跨园区)的训练,这方面国内有很多实践,国外微软等也发过类似的论文。如果条件允许,还是尽量放在一个园区,马斯克在孟菲斯的数据中心就是 20 万卡的集群,当然这对能源也造成了很大的挑战。国内不缺电力供应,但缺卡,集群规模受到芯片供应的限制。
网络在智算中心中的作用越来越重要,越来越多人认为应该围绕网络架构部署机房。有人提出理想的数据中心应该是一个球形,网络放在中间,计算放在周围。但是,我们也可以看到,马斯克这20万卡的数据中心还是那种相对传统的大平层的结构,并没有向球状发展。从训练的角度,可能分布式训练还不是主流。从推理看,推理集群的网络规模不会那么大,但分布式推理对跨节点网络的性能也是有要求的。
在GPU集群中,网络又可以细分成Scale Up和Scale Out。Scale Out不管是以太网还是IB,都是大家公认的网络技术。以前大家不认为Scale Up也符合我们对网络的定义,NVLink、UALink更多的是一种内存语义的操作。但是,我们也看到最近博通有密集的发布,如SUE(Scale Up Ethernet)、Tomahawk Ultra。以太网确实正在进入Scale Up领域。
封铎:关于跨域训练需要先厘清概念,什么叫跨域训练?如果两个集群分别训练,只是把结果同步,广义上也可以叫跨域训练。但真正的跨域训练是指跨域组成一个集群来进行训练,最核心是卡间RDMA网络怎么组成。以目前的网络技术和传输技术,其实是没问题的。最近还有跨域的集群距离达到了1500 公里。但是从工程角度或者是从经济角度来去考虑,那就是另外一番景象了。
首先就是卡间互联的带宽需求是现有网络技术远远满足不了的,目前还是瓶颈。这又带来一个问题,跨域训练从哪能找到这么大的一个带宽资源?我相信可能只有运营商能提供,但是也不能够足量提供。然后这么大的带宽,代价是什么?也就是从工程经济角度来看,这个代价是不是能承受得起?我们中移动的数据中心租用自己的网络也是要需要结算的。即使是100Gb/s的链路,价格也是挺惊人的。因此,即使从实验角度上来看,实现跨域集群在技术上没问题,但真正工程落地是否划得来,是一个需要考量的问题。
还有就是传输的时延问题。距离带来的传输时延相对是较低的。中间跳数越多,每经过一道路由器、一道传输设备,时延都会增加的。只要经过设备处理,包括交换机转发,都会增加时延。我们在设计后端的 RDMA 网络的时候,也就是参数面网络的时候,经常会用盒式交换机而不用框架式的,因为框架式的进来之后要传给背板,再传出去,需要三跳。但盒式交换机可以在同一块板卡上完成,只是一跳。
大语言模型训练的特点是同步推进,整体的训练性能是以木桶的最短板来决定。假如我要长时间等待数据传输,整体的运算效率就下降。跨域集群的问题不仅是能够建设起来,重要的是经济性是否合理。
张广彬:这个观点我是支持的,只要有可能还是不要跨域。我觉得解决能源之类的问题还是比解决网络的问题要简单一些。
话题三:异构/多元算力会对网络带来更多的挑战,智算中心应该如何应对?
宋中伟:不管是否异构,智算平台对网络的要求应该是1:1的收敛。目前计算中心对算力卡的需求量远远大于供给,需要将多厂商算力卡构建在一个平台里。
随着需求需求的多样化,算力集群会延伸出多平面的网络架构。单的RDMA组网,最大就支持 256台服务器,两千多块GPU。每个GPU对应一个IB网卡,每个IB网卡单独组在一个叶脊平面上,那可以实现256节点×8个平面,最大能实现两千多台服务器,一万六千卡的集群。单平面的阻塞点在脊交换机上,也就是如果上下行按一个比例收敛,阻塞点就会出现在最上层的交换机。但8平面把这个风险点转到了服务器内部同平面架构内。
异构智算平台不仅要连接GPU,还有CPU、NPU等各种算力设备。异构平台可能会使用多平面,把同样速率的一些卡或者同厂商的卡放在同一个平面里,把不同需要任务放在不同的平面里计算,避免同步训练的木桶效应。
我们已经充分验证了以太网具备拉通、兼容多种不同终端的能力。我们需要在网络侧解决的问题主要是端口密度,其次是设备通道的标准,然后加上一些传输介质的扩展性。以太网最重要的是兼容性,把这么多不同厂商、不同速率的卡和算力设备集中在一个平台里进行混合调度。
陈伯超:算力的发展方向有好几种,通用GPU、FPGA、ASIC等,适用于不同的需求。比如GPU的运算能力很强, FPGA的时延比较低、处理效率比较快。这种多元化的算力对网络设计和管理构成了很大挑战。
以DeepSeek训推一体机为例,训练和推理对网络的需求都不一样,那么,在同一个网络里,怎么去判断?现在跑训练还是推理?应该给它留多大流量?什么时候给它留带宽?如何判断网络的弹性?同类的 GPU 尚且如此,就更不用说不同类的了,显存带宽不一样,显存容量不一样,通信库也不一样。这都是各家有各家的规律,基础架构不一样,网络传输的开销、时延也是不一样的,很容易产生冲突。
Scale Out网络看起来都是一个胖树的架构,但Scale Up的GPU互联可不一定是胖树。GPU和GPU之间怎么连的,我们的Scale Out网络是不知道的。比如说有厂商的GPU互联的拓扑也是一个胖树,但另外企业的是一个Mesh 架构。外部的Scale Out网络实际上是服务于GPU 之间互联架构的,所以调度算法是非常复杂的。我们当然希望最终网络能达到任意连接的愿景,但挑战还是非常大的。
张广彬:刚才讨论的时候,我就想开玩笑说,其实在智算里,网络其实就是个背锅的。单点、单卡算力不够,或者说单机算力不够,然后就用网络来解决。即使网络的能力也确实比较强,以太网理论上来说不挑终端,但它也不能什么锅都背。也不能没苦硬吃。用异构的卡搞训练,跟跨域的训练类似,如果有条件最好还是用同一种卡来做构建大的集群。
但是,从推理角度,可以做分布式推理。譬如PD分离,Prefill这个阶段主要是算力密集型的,Decode阶段主要是显存密集型的,那理论上来说,可以用两种不同的卡来运行两个不同的任务。
封铎:训推一体这个想法肯定是挺好的,可以充分发挥卡的作用。但在实际去设计训推一体的资源池时,就会遇到网络的问题。从推理看,假如参数量小,单卡推理就可以;参数量大一点,用整机推理就行;当模型大到一定程度,需要跨机推理。只有跨机推理的时候,才需要网络参数面。但训练不一样,训练肯定都需要参数面。
客户会提出来了,有多少台服务器或者是多少卡,要做参数面互联。那么剩下的预计是要做推理的,是不是就可以不做参数面互联?在建设的时候,我们不知道最后的出售情况是什么样子的,有多少客户需要用来做训练?有多少用户拿来做推理?如果都把参数面做上,确实是可以用,但客户就可能觉得是不是有点浪费了?要想做训推一体,那最好就是参数面都考虑上,不管是RoCE还是IB。自用的需求其实我们可能可以很清楚,但对于IDC这类出售的,确实是没法确定。这是无法解决的问题。
王君原:刚才有提到尽量采用合适的网络设备去减小时延,那么我们选择盒式设备的时候,实际上有一个重要的约束条件,就是一个设备所能够提供的端口数量实际上是有限的。一个机柜单元每1U里基本上是32×400G,或36×400G,也就是一个盒式设备能够提供几十个端口的互联。随着网络的规模越来越大,在那个端口有限的情况下,如何去做一些拓展呢?
原先的端口之间是点对点的互联关系。但是新的计算中心中,通常会把网络端口拆成几个去做互联。在100G以上的网络,一个端口里可能会有多条传输通道,比如说4个25G组成一个100G,4个100G组成一个 400G。我们也可以逆向思考,把一个端口拆成多个去用,这样本来一台盒式设备可能只有32个端口,但如果一拆二的话就变 64个端口,一拆四的话就变成128个端口。所以基于这样的一个前提,虽然还是采用盒式设备,但是我们可以把它的这个组网规模扩大。
封铎:但是拆分通道会带来一个问题,连接带宽降低。实际上问题的本质是带宽不太够用,而数量不是核心问题。最终还是需要芯片的发展,提供更多的端口、更大的带宽。提升单端口带宽其实是更好的解决方式。
王君原:确实,端口可以拆,但是面临的局限就是单通道的速率得提升,否则拆出来的意义不大。所以我们也看到近几年单通道的带宽一直在推进,以前单通道是50G,后来达到100G,200G的标准还没落地。从长远来看,单通道速率的提升一定是会更有效地去帮助我们的网络互联。
未完待续,第二期将会分享专家们对“大规模网络对性能的高要求”的观点、以及“从成本角度考虑,智算网络如何选择更合适的方案”,以及相关的观众问题回答。
要观看此次直播的更多细节,请关注益企研究院视频号,搜索7月24日主题为“智算中心的网络应该如何选择”,或者点击阅读原文,观看直播回放。