当前位置: 首页 > news >正文

GTC2025——英伟达布局推理领域加速

英伟达GTC2025大会于今年3月18日举行,会上NVIDIA CEO黄仁勋展示了其过去所取得的成就,以及未来的布局目标——通过纵向扩展(scale out)和横向扩展(scale up)解决终极的计算问题——推理。本文将回顾NVIDIA在近年来的多项成就,并结合GTC2025大会上黄仁勋主题演讲的内容,解析英伟达最新的技术动态,并分析当前硬件行业开发者的挑战与机遇。

一、GTC会议介绍

GTC会议,全称GPU Technology Conference(GPU技术大会),是由NVIDIA主办的全球顶级科技开发者盛会。GTC最早于2009年举办,每年一届,已成为GPU计算、人工智能(AI)、深度学习、高性能计算、自动驾驶、数据中心、工业仿真、图形渲染、边缘计算以及元宇宙等相关领域前沿技术的重要发布和交流平台。

近十年来,GTC大会持续聚焦于AI算力的竞赛与全球技术布局。自2017年推出集成Tensor Core的Volta架构以来,英伟达正式开启了AI专用计算新时代,GPU在深度学习、AI训练及推理加速中的优势日益凸显。自2022年起,黄仁勋在GTC大会上接连发布了H100(Hopper)、GH200(Grace Hopper超级芯片)、B100/B200(Blackwell)等重磅产品,并围绕自动驾驶(Orin平台)、智能生物医疗(Clara平台)、元宇宙协作(Omniverse平台)、生成式AI等前沿行业应用展开主题阐述,进一步巩固了NVIDIA在全球AI训练领域无可撼动的领先地位。

GTC2025于2025年3月17日至21日在美国加利福尼亚州圣何塞的McEnery会议中心隆重举行。黄仁勋在Keynote演讲中将GTC从"AI行业的伍德斯托克摇滚音乐节"的比喻升级为"AI行业的超级碗",反映了该会议在全球科技领域的重要地位。本届大会包含超过1,000场专题演讲,邀请了2,000位演讲嘉宾,近400家企业参展,涵盖的track极为广泛,包含1)具身AI与机器人;2)Agentic AI;3)量子计算;4)数字中心与云基础设施;5)生成式AI应用;6)科学计算与模拟;7)OpenUSD与数字孪生;8)自动驾驶与交通技术;9)网络安全;10)企业生产力与自动化等等主题。

图1 GTC2025在美国加州圣何塞举行

黄仁勋认为,AI正在经历三个发展阶段,生成式AI->代理AI->具身AI,目前AI已进入代理AI阶段,这一阶段的特点是AI系统能够自主规划、推理并完成复杂任务。黄仁勋强调,业界此前对AI算力需求增长放缓的判断是错误的,尤其是针对中国DeepSeek开发的能在较少芯片上运行的新AI模型的说法。算力市场需求仍然强劲,机器人、智能驾驶等落地应用场景火热增长。然而推理和训练的需求很不同,主题演讲中多次提及Agentic AI与推理,并强调了推理能力在端侧的重要性:“训练在乎的是时间,推理在乎的是成本”。本文将从“推理”出发,围绕黄仁勋在GTC2025的主题演讲展开讨论。

图2 GTC2025黄仁勋主题演讲现场

二、关键技术概述

黄仁勋将如今的大模型厂商比作一个AI工厂,它原材料是GPU和电力,产品是token。传统的逻辑推理大模型推理相比于传统大模型带来了更高的token要求:用户希望更快、更廉价的token,可以在相比以往成本几乎不变的前提下更好地解决问题;企业希望提升token产生的速度,以产生更多的token获取利润。但受限于能源问题,必须提高单位能源下的token产出数量。作为AI工厂设备提供方的NVIDIA为此提出了他们的野心——纵向扩展(scale up)和横向扩展(scale out)。

所谓纵向扩展,就是更强的集中式计算,让一个机架内集成更多的GPU或使其中的GPU具有更强的算力,它解决的是一个机架内的问题;横向扩展就是,让AI工厂内的所有GPU总体的产能最高,它解决的是数据工厂内多个机架沟通的问题。为此,英伟达提出了他们的最新解决方案——Dynamo和CPO。

(一)Dynamo

Dynamo是一个开源的推理服务框架,起到更高层次的、专门为大规模AI工作负载设计的运行时和编排管理系统。它是英伟达为应对AI规模化时代提出的一个关键软件基础设施组件,可以认为是AI工厂的大脑。Dynamo的核心任务是高效地管理和调度在数千个GPU上运行的复杂和庞大的模型所需的一切资源,是提高现有AI工厂投入产出比、面向未来模型容量更大计算需求更高情形的前瞻性解决方案。主要包括以下功能:

(1)分离式预填充和解码推理:将大型语言模型(LLM)的处理和生成阶段分离到不同的GPU上,从而提高每个GPU的吞吐量。简单来说,就是将任务拆分,让一组GPU处理数据,另一组GPU生成最终输出。

(2)动态GPU调度:根据需求的波动动态调度GPU,以优化性能。

(3)LLM感知请求路由:避免KV缓存的重新计算成本。通过减少不必要的KV缓存重新计算释放GPU资源。

(4)加速异步数据传输:在GPU之间加速异步数据传输,以减少推理响应时间。

(5)KV缓存跨内存层级管理:将KV缓存分布在数千个GPU上,并跨越不同的内存层级进行卸载,以提高系统吞吐量。

(6)智能路由器:在多GPU推理部署中合理分配每个token,确保在预加载和解码阶段均衡负载,避免瓶颈。

(7)GPU规划器:可以自动调整预加载和解码节点,依据日内需求波动动态增加或重新分配GPU资源,进一步实现负载均衡。

(8)改进的NCCL:NCCL的新算法使得小token传输延迟降低4倍,从而显著提高推理吞吐量。

通过上述优化,提升AI工厂单个机架构成的互联系统的产量。作为对比,将传统的管理多服务器的框架Hopper用于GPU最多管理8个,英伟达最新的NV Link技术可以管理72个GPU,并且在Dynamo的加持下,可以更好的在AI工厂和用户间取得平衡(图3高亮处),帮助AI工厂获取利润。

图3 Dynamo效果对比:横轴表示AI响应速度(用户端)、纵轴表示单位功耗下的计算能力(AI工厂端)

(二)CPO

Dynamo是NVIDIA为解决纵向扩展问题的答卷。然而将至数十万个GPU连在一起的挑战在于连接速度。目前单个机架内GPU的连接通常使用铜缆连接,这种方案比较可靠、能效极高、成本极低,速度可达1.8 TB/s,但适用范围仅限一两米以内,并不适用于横向扩展。CPO便是为解决以上问题被提出的。

黄仁勋表示,NVIDIA光子学团队携手产业伙伴推动CPO联合创新,包括首款采用微环谐振器调制器(Micro Ring Modulators,MRM)1.6Tbps硅光CPO芯片,首个采用TSMC制程3D堆叠硅光子引擎,搭载了高输出功率激光器和直连光纤连接器。CPO技术可以取代传统的可插拔光学收发器,使光纤直接连接到交换机,大幅减少数据中心的功耗。据英伟达测算,该技术可降低40MW的功耗,并提高AI计算集群的网络传输效率,为未来超大规模AI数据中心奠定基础。

NVIDIA CPO交换机内部涉及到的技术细节,如图4所示,包括EIC、PIC、3D封装、光耦合可插拔光连接器、光学模组、外置激光器模块、激光器芯片封装、interposer等。对于Quantum-x硅光CPO交换机而言,各组成部分是通过interposer中介实现互联的。除了中间的交换芯片(Quantum-X800 ASIC),周围的chiplet(硅光引擎)均为3D垂直堆叠:这些chiplet上层是EIC——电芯片,下层是PIC(Photonic IC)。

图4 NVIDIA CPO交换机

MRM是CPO的关键技术之一,是一种光调制技术,将电信号转换为光。硅光领域主要有两类调制器:MRM和Mach-Zehnder(MZM)。其中MZM常见于可插拔光收发器,基于这种方案的光通过波导,切分成两个并行的部分,再应用电场去做调制,改变光的相位,然后再结合构成单波导。而MRM则基于环形波导,如果光在环内谐振构成驻波,则会提取出来,过滤出来的波长用于后续处理分析。MRM具备更紧凑的特点,相比MZM的损失也更低;不过通常MRM对温度较为敏感,所以还需要配合更精准的温度控制电路。

基于上述技术,NVIDIA推出Spectrum-X和Quantum-X交换机。其中Spectrum-X以太网平台是专为多租户超大规模AI工厂设计,带宽密度达传统以太网的1.6倍,支持全球最大规模超级计算机。Quantum-X光子InfiniBand平台是基于200Gb/s SerDes技术提供144个800Gb/s端口,采用液冷设计高效冷却硅光模块,AI计算架构速度较前代提升2倍,可扩展性增强5倍。

谈及GPU纵向扩展,笔者还想简单聊聊NVIDIA GPU发展路线图。NVIDIA每年发布一次路线图,每两年推出一种架构,每年推出一个新产品线,并不断在关键技术上取得进步。之前NVIDIA相关产品以Rubin科学家命名,下一代产品将于2028年发布,以Feyman科学家命名。该信息主要为“AI工厂的建设方”服务,作用在于安抚市场信息,巩固自身地位。

图5 英伟达GPU发布时间线

三、挑战与机遇

虽然GTC名为GPU技术大会,但黄仁勋在其主题演讲中多次强调AI工厂的组建成本与潜在收益,凸显了其商业化落地的重要性。CUDA作为并行计算平台与编程模型,高效驱动其GPU硬件,并与Torch、TensorFlow等主流框架深度绑定,共同构筑了英伟达在模型训练领域的坚实护城河,使得AMD、英特尔等传统GPU厂商及其他ASIC设计者难以望其项背。在此基础上,英伟达的战略重心在于,凭借其在模型训练领域的稳固地位,面向逻辑模型日益庞大、token计算需求激增的推理场景,进一步抢占这块新兴市场。

在推理市场,传统GPU厂商如AMD与英特尔,尽管其单颗GPU可能具备有竞争力的算力,却缺乏如NVIDIA NVLink般高效的互联技术,难以构建大规模、高带宽的计算集群。而对于ASIC设计者,其“需求定义先行、定制设计置后”的模式,在模型算法日新月异的背景下,常面临设计刚完成验证即被新模型迭代所超越的风险。

然而,随着模型推理需求的持续演进、神经网络技术的不断突破以及应用场景的日益丰富,其他GPU厂商和ASIC设计者依然拥有突围的机遇。尽管训练市场目前由NVIDIA主导,其CUDA及NVLink的技术壁垒难以轻易逾越,但推理市场不仅规模更为广阔,场景也更趋分散,且对成本和功耗表现得更为敏感。因此,针对特定推理负载优化的ASIC,尤其是在边缘计算和特定云端推理场景中,仍有巨大的市场空间。例如,在超低功耗边缘推理、特定通信算法加速、专用科学计算以及机器人特定感知与控制模块等领域,为特定算法和数据流精心设计的ASIC,依然有机会在性能、功耗与成本的综合表现上取得显著优势。此外,AI技术仍在飞速发展,新的网络模型、算法及计算范式(如神经形态计算、存内计算等)层出不穷,ASIC凭借其架构定制的灵活性,能够更敏捷地针对这些新兴方向进行创新,从而在特定赛道实现“弯道超车”。

参考资料

[1] GTC2025-黄仁勋主题演讲(nvidia.cn)

[2] 硅谷101-“再造一个CUDA”:英伟达的第二护城河与“超级碗”阳谋【深度解析GTC 2025】(bilibili.com)

[3]4个问题快速看懂NVIDIA Photonics硅光芯片:它对Agentic AI很重要?-电子工程专辑

相关文章:

  • 什么是Vim
  • 神经生物学+图论双buff,揭示大脑语言系统的拓扑结构
  • 探秘高可用负载均衡集群:企业网络架构的稳固基石
  • EnumUtils:你的枚举“变形金刚“——让枚举操作不再手工作业
  • ARM-CortexM固件升级相关问题研究
  • 模型上下文协议(MCP):AI的“万能插座”
  • Matplotlib 完全指南:从入门到精通
  • 负载均衡 ELB 在 zkmall开源商城高流量场景下的算法优化
  • 高并发内存池(三):TLS无锁访问以及Central Cache结构设计
  • [ARM][汇编] 01.基础概念
  • CentOS 和 RHEL
  • Java学习手册:服务网关与路由
  • 电子电器架构 --- 借力第五代架构,驱动汽车产业创新引擎
  • 关于mac配置hdc(鸿蒙)
  • 【25软考网工】第六章(4)VPN虚拟专用网 L2TP、PPTP、PPP认证方式;IPSec、GRE
  • MacOS 上构建 gem5
  • 算法模型部署后_python脚本API测试指南-记录3
  • 四、STM32 HAL库API完全指南:从功能分类到实战示例
  • 微信小程序仿淘宝拍照/照片点位识图、点位裁剪生图、图片裁剪组件、图片点位框选、裁剪生成图片,canvasToImg
  • Parasoft C++Test软件单元测试_实例讲解(指针类型的处理)
  • 极限拉扯上任巴西,安切洛蒂开启夏窗主帅大挪移?
  • 习近平出席中国-拉美和加勒比国家共同体论坛第四届部长级会议开幕式
  • 特朗普开启第二任期首次外访:中东行主打做生意,不去以色列
  • 印巴开始互袭军事目标,专家:冲突“螺旋式升级”后果或不可控
  • 《2025城市青年旅行消费报告》发布,解码青年出行特征
  • 湖北奥莱斯轮胎公司逃避监管排放大气污染物被罚25万元