当前位置: 首页 > news >正文

AI硬件 - 华为显卡的演进

目录

1. 核心基石:统一可扩展的达芬奇(Da Vinci)架构

1.1 架构核心构成

1.2 架构的“可扩展性”:从Max到Tiny的核心分级

2. 架构演进与产品谱系:从开创到对标

2.1 第一代(约2018-2019年):开创端云协同新纪元

2.2 第二代(约2020年至今):性能跃迁与国产化替代

2.3 Atlas加速卡产品矩阵

3. 核心技术演进趋势分析

4. AI硬件选购建议(截至2025年8月)

4.1 场景驱动选择

4.2 性能考量的多维度视角

4.3 预算与战略考量

结论


1. 核心基石:统一可扩展的达芬奇(Da Vinci)架构

华为AI硬件的心脏是其自2018年起推出的“达芬奇架构”。与传统GPU的通用计算架构不同,达芬奇架构是一种专为AI计算设计的、可扩展的统一架构(特定域架构,DSA) 。其核心设计理念是实现“端、边、云”全场景的AI能力覆盖,让算法模型一次开发,即可无缝部署在从低功耗设备到大型数据中心的不同硬件上 。

1.1 架构核心构成

达芬奇架构的创新之处在于其异构计算设计,它集成了三种核心计算单元,以高效处理AI任务中不同类型的运算 :

  • 3D Cube矩阵计算单元(Matrix Unit) :这是达芬奇架构的灵魂,专门用于处理AI计算中最为密集的矩阵和张量运算(如卷积、矩阵乘法)。其3D立体设计能够在一个时钟周期内完成大规模的MAC(乘加)运算,极大提升了AI计算的核心效率 。
  • 向量计算单元(Vector Unit) :负责处理相对复杂的逻辑运算和通用计算任务,例如标量运算之外的向量或矩阵相关运算,为非矩阵密集型算子提供高效支持 。
  • 标量计算单元(Scalar Unit) :功能上类似传统CPU的控制单元,负责执行独立的标量指令、循环控制和分支判断,作为整个计算过程的“大脑” 。

1.2 架构的“可扩展性”:从Max到Tiny的核心分级

达芬奇架构的“可扩展性”通过不同规格的AI核心(AI Core)得以实现。华为根据性能和功耗需求,设计了多种规模的核心,主要包括Max、Mini、Lite、Tiny和Nano等级别 。这种设计使得同一架构可以灵活适配从穿戴设备到云端训练集群的巨大算力跨度。

尽管搜索结果未提供各级核心具体的晶体管数量或缓存容量对比 但其核心差异体现在矩阵计算能力上:

核心类型 主要特点 单周期MAC(乘加)运算能力 典型应用芯片
Max 功能最完整、性能最强 8192次  昇腾910系列 
Mini 性能均衡 数据未明确,介于Max与Lite之间 昇腾310系列 
Lite 适用于移动终端 数据未明确 手机麒麟SoC中的NPU
Tiny 功耗极低、尺寸小 512次  智能穿戴、物联网设备

注:关于达芬奇架构的“V1”、“V2”版本,现有资料并未明确定义架构级别的代际划分。搜索结果中提及的“V1/V2”多指特定功能(如媒体数据处理)的接口版本,而非整个计算架构的迭代 。其演进主要体现在后续芯片(如910B)的工艺、互联和能效比优化上。


2. 架构演进与产品谱系:从开创到对标

基于统一的达芬奇架构,华为昇腾系列芯片和搭载这些芯片的Atlas加速卡产品线构成了其完整的AI硬件生态。其演进大致可分为两个主要阶段。

2.1 第一代(约2018-2019年):开创端云协同新纪元

2018至2019年,华为正式发布昇腾310和昇腾910两款芯片,分别精准地切入AI推理和训练两大市场,奠定了其在AI硬件领域的根基。

芯片型号 昇腾310 (Ascend 310) 昇腾910 (Ascend 910)
市场定位 端、边侧AI推理  云端数据中心AI训练 
发布时间 2018年  2019年 
核心架构 达芬奇 (Da Vinci) - Mini Core  达芬奇 (Da Vinci) - 32颗Max Core 
制程工艺 12nm  7nm 
FP16算力 8 TFLOPS  256 TFLOPS 
INT8算力 16 TOPS  640 TOPS 
最大功耗 约 8W  约 310W - 350W 
典型产品 Atlas 200 A
http://www.dtcms.com/a/340486.html

相关文章:

  • 深入理解MySQL Ⅳ -- SQL性能分析工具
  • 力扣48:旋转矩阵
  • [TryHackMe]Mr Robot CTF(hydra爆破+Wordpress更改主题)
  • IPSec安全概述
  • 医疗AI与医院数据仓库的智能化升级:异构采集、精准评估与高效交互的融合方向(上)
  • 信创产品TongLinkQ安装及springboot2整合使用
  • AI 视频翻译工具的调研笔记
  • Spring Boot 实战:从项目搭建到部署优化
  • Causal-Copilot: An Autonomous Causal Analysis Agent 论文解读
  • 基于离散点集的三次样条插值与符号表达式构建:从 Scipy 到 Sympy 的完整实现
  • 记一次前端Vue3+Vite+TS项目中使用Mock.js + vite-plugin-mock插件发布到生产(线上)环境填坑汇总
  • 矩阵的特征分解
  • C语言---分隔符、常量、注释、标识符、关键字、空格
  • LoRa 网关组网方案(二)
  • 【科研绘图系列】R语言绘制平行坐标图
  • 保姆级Debezium抽取SQL Server同步kafka
  • 绕过 C 标准库限制执行系统命令:系统调用、Shellcode 和裸机二进制
  • week2-[一维数组]出现次数
  • css中的性能优化之content-visibility: auto
  • InfluxDB 查询性能优化实战(二)
  • 【解决方案】powershell自动连接夜神adb端口
  • 手撕线程池
  • AI 伦理的 “灰色地带”:当算法拥有决策权,公平与隐私该如何平衡?
  • C# NX二次开发:面收集器控件和曲线收集器控件详解
  • 边缘智能体:Go编译在医疗IoT设备端运行轻量AI模型(下)
  • DAY 51 复习日
  • Redis 复制功能是如何工作的
  • Android 开发问题:android:marginTop=“20px“ 属性不生效
  • 多系统 Node.js 环境自动化部署脚本:从 Ubuntu 到 CentOS,再到版本自由定制
  • 云原生俱乐部-k8s知识点归纳(5)