当前位置: 首页 > news >正文

华为昇腾 910 到 950 系列 NPU 深度解析

目录

定义与定位:从基础构建到生态引领

性能指标:从规模扩张到效能跃升

910 系列的性能基础

950 系列的代际突破

性能对比的深层解读

架构创新:从专用加速到协同优化

910 系列的达芬奇架构根基

950 系列的架构革新

技术演进与行业影响


在全球 AI 算力竞争愈演愈烈的背景下,华为昇腾系列神经网络处理器(NPU)从 910 到 950 的演进,不仅体现了国产芯片的技术突围,更展现了在制程工艺受限情况下通过架构创新实现算力跃升的独特路径。本文将系统解析昇腾 910 系列的技术根基与 950 系列的突破性进展,从定义定位、性能参数到架构创新展开全面对比,揭示华为在 AI 芯片领域的战略布局与技术突破。

定义与定位:从基础构建到生态引领

华为昇腾系列并非传统意义上的 GPU(图形处理器),而是专为人工智能计算设计的神经网络处理器(NPU),其核心使命是为 AI 训练与推理提供高效算力支撑。这一本质区别决定了其架构设计完全围绕神经网络计算特性优化,而非图形渲染需求。

昇腾 910 系列作为华为首款面向大规模 AI 训练的旗舰级 NPU,自 2019 年发布以来奠定了国产 AI 算力的基础。其中 910A 为初始版本,910B 实现工艺优化,当前量产的910C 采用两颗 910B 芯片合封设计,主要定位为中大型 AI 集群的算力基座,支撑千亿参数级大模型的训练与推理任务。在华为 "超节点 + 集群" 战略中,910C 是 384 卡超节点的核心计算单元,通过 MatrixLink 全对等互联技术形成中等规模算力集群,填补了国产高端 AI 芯片的空白。

昇腾 950 系列则是华为面向 2026-2028 年 AI 算力需求的下一代产品,计划推出950PR(Prefill 优化版) 和950DT(训练解码增强版) 双版本,分别于 2026 年一季度和四季度上市。这一细分定位体现了华为对 AI 场景的深度理解:PR 版本针对大模型推理的前缀处理(Prefill)阶段优化,DT 版本则强化训练能力与持续解码性能。950 系列的核心使命是突破当前算力瓶颈,支撑万亿参数级大模型的研发,并通过四芯片合封技术与系统级优化,在先进制程受限的情况下实现算力密度的跨越式提升。

从产业定位看,昇腾 910 系列实现了国产 AI 训练芯片从 0 到 1 的突破,而 950 系列则瞄准全球顶级算力竞争,华为轮值董事长徐直军明确表示,基于 950 的 Atlas 950 超节点将成为 "2026-2028 年间全球算力最强的 AI 超节点",直接挑战英伟达在高端 AI 算力市场的主导地位。

性能指标:从规模扩张到效能跃升

昇腾系列的性能演进呈现出显著的 "量质并重" 特征,从 910 到 950 的参数提升不仅体现在绝对算力的增长,更反映在能效比、通信效率和场景适应性的全面优化。

910 系列的性能基础

昇腾 910C 作为当前量产主力型号,采用 7nm 工艺制程,通过两颗 910B 芯片合封实现800 TFLOPS 的 FP16 算力,内存带宽达到 3.2 TB/s。这一性能使其能够支撑 LLaMA 3 等千亿参数模型的训练,在 384 卡超节点配置下实现 300 PFLOPS 的总算力输出。实际测试中,910C 在 MoE 模型训练中表现出优异的通信效率,配合 MindSpeed 的 DualPipeV 流水排布技术,可实现85% 以上的通信掩盖率,显著降低大规模并行计算的时延开销。

能效比方面,910C 在液冷散热支持下单机柜功耗控制在 80kW,PUE 低至 1.1,较传统风冷集群能效提升 30% 以上。在推理场景中,910C 的单卡 Token 生成速度可达 2300 Tokens/s,较非超节点方案提升近 4 倍,充分体现了架构设计对实际业务场景的适应性。

950 系列的代际突破

昇腾 950 系列在性能指标上实现了跨越式提升,采用四芯片合封方案(总面积 2660 平方毫米),FP8 精度下算力达到1 PFLOPS,FP4 精度更是高达 2 PFLOPS,较 910C 提升 2.5-5 倍。这一突破主要源于三个技术创新:

多精度计算支持:新增 FP8/MXFP8/HiF8/MXFP4/HiF4 等低精度格式,其中自研 HiF8 格式在保持 FP8 高效性的同时精度接近 FP16,解决了低精度计算的精度损失问题;

存储带宽跃升:搭载自研高带宽内存 HiBL 1.0,950PR 实现 144GB 容量和 4TB/s 带宽,较 910C 提升 25%,为大规模参数存储提供支撑;

互联能力强化:片间互联带宽提升 2.5 倍至 2 TB/s,配合 "灵衢 2.0" 协议,使 8192 卡超节点的总算力达到 8 EFlops(FP8),互联总带宽高达 16 PB/s—— 这一数值超过当前全球互联网峰值带宽的 10 倍。

在实际场景效能方面,950 系列针对 MoE 模型做了专门优化,通过向量计算单元重构和内存访问粒度优化,使稀疏激活计算效率提升 40% 以上。华为测试数据显示,950DT 在 DeepSeek V3 模型训练中,单卡迭代速度较 910C 提升 2.3 倍,千亿参数模型训练周期可缩短至 10 天以内。

性能对比的深层解读

单纯比较绝对算力可能忽略架构设计的本质差异。昇腾 910 到 950 的演进中,一个显著趋势是从追求峰值算力到注重实际效能的转变。950 系列通过 HiF8 等混合精度技术,在相同功耗下实现了比 910 系列更高的有效算力输出 —— 测试显示,在保证模型精度损失小于 1% 的前提下,950PR 的推理吞吐量是 910C 的 3.8 倍。

与竞品相比,尽管 910C 在单芯片算力上与英伟达 H100(1000 TFLOPS FP16)仍有差距,但 950 系列通过系统级优化实现了集群性能的反超。华为声称,384 颗 950 芯片组成的集群算力将超越英伟达 Blackwell 架构顶级芯片的同规模集群,这一优势主要来自于更高效的互联架构和内存协同设计。

架构创新:从专用加速到协同优化

昇腾系列的架构演进体现了 AI 芯片设计思路的不断深化,从 910 的达芬奇架构到 950 的 SIMD/SIMT 新同构设计,每一代都针对 AI 计算的核心痛点进行重构。

910 系列的达芬奇架构根基

昇腾 910 系列采用华为自研的达芬奇架构,这是一种典型的特定域架构(DSA),通过三种计算单元的协同工作实现高效 AI 计算:

矩阵计算单元(Cube Unit):采用类似 TPU 的脉动阵列结构,单个 Max 核心可在一个周期内完成 8192 次 MAC 运算,专为矩阵乘加等核心 AI 算子优化,算力密度最高;

向量计算单元(Vector Unit):承担激活函数、池化等向量操作,作为矩阵计算与存储之间的桥梁,支持数据格式转换和复杂算子计算;

标量计算单元(Scalar Unit):基于 ARM 或 RISC-V 核心,负责控制调度、逻辑判断等 scalar 运算,灵活性最高。

这种架构的优势在于计算资源的精准分配:Cube 单元处理计算密集型矩阵运算,Vector 单元优化数据流动,Scalar 单元负责控制逻辑,三者形成三条独立流水线。存储层次上,910 系列采用多级缓冲设计,AI Core 内部有 L0A/B/C 缓冲区,片上集成 8MB L2 缓存,配合 LPDDR4x 控制器,实现高带宽低延迟的数据访问。

此外,910 系列集成专用的数字视觉预处理模块(DVPP),可高效完成图像视频的编解码和格式转换,减少 CPU 预处理开销;8 个 A55 核心分为 AI CPU 和控制 CPU,动态分配计算资源,提升任务调度效率。

950 系列的架构革新

昇腾 950 系列在架构上进行了根本性重构,采用SIMD/SIMT 新同构设计,主要突破体现在三个方面:

计算单元重构:针对 MoE 等稀疏模型的兴起,950 优化了向量计算单元与矩阵计算单元的配比,增强了对动态稀疏激活的硬件支持。通过引入可配置计算单元阵列,实现对不同精度数据的自适应处理 ——HiF8 格式计算时可动态调整运算单元精度,兼顾效率与精度。

存储 - 计算协同:采用华为自研的 HIZQ2.0 存储技术,实现计算单元与内存的深度协同。950 的内存控制器支持智能预取和数据压缩,配合 Swap 内存交换技术,可在有限硬件资源下实现 20% 以上的内存优化,支撑更大规模模型训练。

互联架构升级:从 910 的灵衢 1.0 协议升级至 2.0,采用光互联网状拓扑替代传统总线结构。在超节点配置中,950 芯片通过 6912 个 800Gb/s 硅光模块实现全对等互联,单跳通信时延降至 100 纳秒以下,较 910 系列降低 50%。这种架构使 8192 卡超节点可视为 "单台计算机" 运行,大幅简化大规模并行编程难度。

值得注意的是,950 系列的架构创新特别注重软件硬件协同设计。通过开放 CANN 编译器和 MindSpore 框架的深度优化接口,使上层应用能充分利用硬件特性 —— 例如 DualPipeV 技术在 950 上可实现 85% 的通信掩盖率,正是基于对互联架构和计算调度的协同优化。

技术演进与行业影响

从 910 到 950 的演进轨迹,清晰展现了华为在 AI 芯片领域的战略思考:在先进制程受限的情况下(910C 为 7nm,950 仍未采用 5nm),通过架构创新、封装技术和系统优化实现算力突破,这一路径对全球 AI 芯片发展具有重要启示意义。

910 系列验证了国产 AI 芯片的可行性,而 950 系列则标志着华为从 "追赶者" 向 "引领者" 的角色转变。通过 HiF8 等自研数据格式和灵衢协议等互联技术,华为正在构建自主可控的技术生态,减少对外部技术的依赖。徐直军强调,昇腾芯片的发展逻辑始终围绕 "单芯片算力提升、互联能力迭代和开发生态完善" 三大核心,这一战略在 950 系列上得到充分体现。

对于行业应用而言,910 系列已在金融风控、能源调度等领域证明价值,而 950 系列将进一步拓展 AI 的应用边界 —— 从支持千亿参数模型到万亿参数模型,从通用 AI 到科学智能(AI for Science),为新材料研发、气候模拟等尖端领域提供算力支撑。华为规划的 Atlas 950 超节点(8192 卡)和 Atlas 960 超节点(15488 卡),正瞄准这些前沿场景的算力需求。

尽管面临单芯片性能与国际顶尖水平的差距(910C FP16 算力为 H100 的 64%),但华为通过集群架构创新形成了差异化优势。昇腾 950 系列的推出,不仅是一次产品迭代,更是国产算力体系走向成熟的标志,它证明了通过系统级创新可以部分弥补制程差距,为全球 AI 算力竞争提供了新的技术范式。

http://www.dtcms.com/a/393817.html

相关文章:

  • 设计模式---门面模式
  • SQL Server从入门到项目实践(超值版)读书笔记 26
  • Datawhale学习笔记——深度语义匹配模型DSSM详解、实战与FAQ
  • 一文了解瑞萨MCU常用的芯片封装类型
  • LeetCode:44.二叉搜索树中第K小的元素
  • 初学者如何系统性地学习Linux?
  • LeetCode:43.验证二叉搜索树
  • [学习log] OT/ICS工业控制系统渗透测试
  • 六边形箱图 (Hexbin Plot):使用 Matplotlib 处理大规模散点数据
  • LinuxC++项目开发日志——基于正倒排索引的boost搜索引擎(2——Parser解析html模块)
  • 电脑能ping开发板,开发板不能ping电脑的解决方法:
  • git 覆盖:检出特定分支的文件到当前分支
  • CentOS 8.5.2.111部署Zabbix6.0
  • 【Elasticsearch面试精讲 Day 20】集群监控与性能评估
  • hive调优系列-3.HQL语法和运行参数层面
  • 计算机网络学习(三、数据链路层)
  • Refresh keys changed: [] 2023.0.3.3 问题排查
  • 高并发内存池(二):三层缓存的整体框架设计
  • Android音视频编解码全流程之Extractor
  • 基于 @antv/x6 实现流程图
  • markdown 绘制流程图
  • Spark专题-第二部分:Spark SQL 入门(5)-算子介绍-Join
  • 平替Jira,推荐一款国产开源免费的项目管理工具-Kanass
  • ssh不用版本管理器为多个服务器添加密钥
  • Windows Docker Desktop 实战:大模型存入 docker-desktop 实例 home 目录并与 Dify 联动运行指南
  • linux驱动开发笔记
  • 阿里云与腾讯云产品操作与体验:云平台运维实战技术解析
  • 深入了解linux网络—— 网络基础
  • leetcode3 哈希
  • Spring AI 整合OpenAI 聊天、做图