AI硬件 - 华为显卡的演进
目录
1. 核心基石:统一可扩展的达芬奇(Da Vinci)架构
1.1 架构核心构成
1.2 架构的“可扩展性”:从Max到Tiny的核心分级
2. 架构演进与产品谱系:从开创到对标
2.1 第一代(约2018-2019年):开创端云协同新纪元
2.2 第二代(约2020年至今):性能跃迁与国产化替代
2.3 Atlas加速卡产品矩阵
3. 核心技术演进趋势分析
4. AI硬件选购建议(截至2025年8月)
4.1 场景驱动选择
4.2 性能考量的多维度视角
4.3 预算与战略考量
结论
1. 核心基石:统一可扩展的达芬奇(Da Vinci)架构
华为AI硬件的心脏是其自2018年起推出的“达芬奇架构”。与传统GPU的通用计算架构不同,达芬奇架构是一种专为AI计算设计的、可扩展的统一架构(特定域架构,DSA) 。其核心设计理念是实现“端、边、云”全场景的AI能力覆盖,让算法模型一次开发,即可无缝部署在从低功耗设备到大型数据中心的不同硬件上 。
1.1 架构核心构成
达芬奇架构的创新之处在于其异构计算设计,它集成了三种核心计算单元,以高效处理AI任务中不同类型的运算 :
- 3D Cube矩阵计算单元(Matrix Unit) :这是达芬奇架构的灵魂,专门用于处理AI计算中最为密集的矩阵和张量运算(如卷积、矩阵乘法)。其3D立体设计能够在一个时钟周期内完成大规模的MAC(乘加)运算,极大提升了AI计算的核心效率 。
- 向量计算单元(Vector Unit) :负责处理相对复杂的逻辑运算和通用计算任务,例如标量运算之外的向量或矩阵相关运算,为非矩阵密集型算子提供高效支持 。
- 标量计算单元(Scalar Unit) :功能上类似传统CPU的控制单元,负责执行独立的标量指令、循环控制和分支判断,作为整个计算过程的“大脑” 。
1.2 架构的“可扩展性”:从Max到Tiny的核心分级
达芬奇架构的“可扩展性”通过不同规格的AI核心(AI Core)得以实现。华为根据性能和功耗需求,设计了多种规模的核心,主要包括Max、Mini、Lite、Tiny和Nano等级别 。这种设计使得同一架构可以灵活适配从穿戴设备到云端训练集群的巨大算力跨度。
尽管搜索结果未提供各级核心具体的晶体管数量或缓存容量对比 但其核心差异体现在矩阵计算能力上:
核心类型 | 主要特点 | 单周期MAC(乘加)运算能力 | 典型应用芯片 |
---|---|---|---|
Max | 功能最完整、性能最强 | 8192次 | 昇腾910系列 |
Mini | 性能均衡 | 数据未明确,介于Max与Lite之间 | 昇腾310系列 |
Lite | 适用于移动终端 | 数据未明确 | 手机麒麟SoC中的NPU |
Tiny | 功耗极低、尺寸小 | 512次 | 智能穿戴、物联网设备 |
注:关于达芬奇架构的“V1”、“V2”版本,现有资料并未明确定义架构级别的代际划分。搜索结果中提及的“V1/V2”多指特定功能(如媒体数据处理)的接口版本,而非整个计算架构的迭代 。其演进主要体现在后续芯片(如910B)的工艺、互联和能效比优化上。
2. 架构演进与产品谱系:从开创到对标
基于统一的达芬奇架构,华为昇腾系列芯片和搭载这些芯片的Atlas加速卡产品线构成了其完整的AI硬件生态。其演进大致可分为两个主要阶段。
2.1 第一代(约2018-2019年):开创端云协同新纪元
2018至2019年,华为正式发布昇腾310和昇腾910两款芯片,分别精准地切入AI推理和训练两大市场,奠定了其在AI硬件领域的根基。
芯片型号 | 昇腾310 (Ascend 310) | 昇腾910 (Ascend 910) |
---|---|---|
市场定位 | 端、边侧AI推理 | 云端数据中心AI训练 |
发布时间 | 2018年 | 2019年 |
核心架构 | 达芬奇 (Da Vinci) - Mini Core | 达芬奇 (Da Vinci) - 32颗Max Core |
制程工艺 | 12nm | 7nm |
FP16算力 | 8 TFLOPS | 256 TFLOPS |
INT8算力 | 16 TOPS | 640 TOPS |
最大功耗 | 约 8W | 约 310W - 350W |
典型产品 | Atlas 200 A |