Nvidia GPU 明细表、架构详解
本文将介绍如下内容:
- Nvidia GPU 明细表
- Nvidia GPU 架构详解
一、Nvidia GPU 明细表
此处分享
上市时间 | 显卡型号 | 显存 | TFLOPS(FP16 tensor core - 非稀疏化) | 互连带宽 | 架构 | 推荐用作训练卡还是推荐卡 |
---|---|---|---|---|---|---|
2020年5月 | A100 | 80GB HBM2e | 312 | NVIDIA NVLink : 600 GB/s PCIe : 64 GB/s | Ampere | 训练卡 |
2020年9月 | 3090 | 24GB GDDR6X | 142 | NVLink : 56 GB/s PCIe : 64 GB/s | Ampere | 推荐卡 |
2020年9月 | A30 | 24GB HBM2 | 165 | NVLink : 200 GB/s PCIe : 64 GB/s | Ampere | 推荐卡 |
2021年4月 | A10 | 24GB GDDR6 | 125 | PCIe 4.0 : 64 GB/s | Ampere | 推荐卡 |
2022年9月 | 4090D | 24GB GDDR6X | 294.2 | PCIe 4.0 : 64 GB/s | Ada Lovelace | 推荐卡 |
2022年11月 | H100 | 80GB HBM3 | 989 | NVLink : 900 GB/s PCIe : 128 GB/s | Hopper | 训练卡 |
2022年11月 | A800 | 80GB HBM2e | 312 | NVLink : 400 GB/s PCIe : 64 GB/s | Ampere | 训练卡 |
2023年3月 | H800 | 80GB HBM3 | 989 | NVLink : 400 GB/s PCIe : 128 GB/s | Hopper | 训练卡 |
2023年11月 | L20 | 48GB HBM3 | 119 | PCIe : 128 GB/s | Ada Lovelace | 推荐卡 |
2024年年底 | H20 | 96GB HBM3 | 148 | NVLink : 900 GB/s PCIe : 128 GB/s | Hopper | 训练卡/推荐卡 |
- 注:显存技术:
HBM3、HBM2e、HBM2、GDDR6X和GDDR6都是显存(GPU内存)技术,它们在带宽、性能、功耗和成本上存在较大区别:
类型 | 定位 | 功耗 | 应用 |
---|---|---|---|
HBM3 | 高端服务器,工业AI | 低 | AI训练、超算计算 |
HBM2e | 数据中心,高性能计算 | 较低 | AI训练、高性能计算 |
HBM2 | 数据中心,专业计算卡 | 较低 | 数据中心、专业显卡 |
GDDR6X | 消费级高端显卡 | 高 | 高端游戏显卡 |
GDDR6 | 主流消费显卡 | 中等 | 中端游戏显卡 |
- 二、Nvidia GPU 架构详解
概览
Pascal、Volta、Turing、Ampere、Ada、Hopper、Blackwell
架构名称 | 关键技术 | 性能特点 | 代表产品 |
---|---|---|---|
Pascal | CUDA 核心优化,GDDR5X/HBM2 显存,NVLink | 性能能效提升,支持 VR | GeForce GTX 10 系列,Quadro P 系列,Tesla P 系列 |
Volta | Tensor Core,HBM2 显存,NVLink 2.0 | AI 加速,FP16/INT8 运算优化 | Titan V,Tesla V100 |
Turing | RT Core,第二代 Tensor Core,DLSS | 实时光线追踪,混合渲染效果 | GeForce RTX 20 系列,Quadro RTX 系列,Tesla T4 |
Ampere | 第三代 Tensor Core,第三代 RT Core,MIG,PCIe Gen 4 | 高效AI和光线追踪性能,稀疏推理加速 | GeForce RTX 30 系列,NVIDIA A100 |
Ada | 第四代 Tensor Core,第四代 RT Core,DLSS 3 | 极致光线追踪,高效 AI 加速 | GeForce RTX 40 系列,L40 |
Hopper | Transformer Engine,NVLink,HBM3 显存 | 针对大规模训练,更高的互联带宽 | H100 |
Blackwell | 第五代 Tensor Core,第五代 RT Core,新一代显存 | 更强 AI 和光线追踪能力,更高能效 | GeForce RTX 50 系列(预计),B 系列(预计) |
1. Pascal(帕斯卡)架构(2016)
- 关键技术
- 16nm FinFET工艺:首次采用16nm工艺,显著提升能效比。
- GDDR5X/GDDR5显存:支持高带宽显存,提升数据传输速度。
- 同步多重投影(SMP):优化VR渲染性能,减少重复计算。
- NVLink:支持多GPU高速互联,提升并行计算能力。
- 性能特性
- 高性能计算和图形渲染能力。
- 能效比显著提升,适合游戏和专业图形工作。
- 支持DirectX 12和Vulkan API。
- 代表产品
- GeForce GTX 10系列:GTX 1080 Ti、GTX 1070、GTX 1060。
- Titan Xp:高端消费级显卡。
- Quadro P系列:如Quadro P6000,用于专业图形工作站。
2. Volta(伏特)架构(2017)
- 关键技术
- 12nm FinFET工艺:进一步提升能效比。
- Tensor Core:首次引入专为深度学习设计的Tensor Core,支持混合精度计算。
- HBM2显存:部分型号采用高带宽显存,提升数据吞吐量。
- CUDA Core改进:支持更高效的并行计算。
- 性能特性
- 强大的AI计算能力,适合深度学习训练和推理。
- 高性能计算(HPC)和科学模拟。
- 支持NVLink 2.0,多GPU互联带宽更高。
- 代表产品
- Titan V:消费级高端显卡。
- Tesla V100:面向数据中心的AI和HPC计算卡。
- Quadro GV100:专业图形工作站显卡。
3.Turing(图灵)架构(2018)
- 关键技术
- 12nm FinFET工艺:继续优化能效比。
- RT Core:首次引入实时光线追踪核心,支持实时光追渲染。
- Tensor Core:继承Volta架构,第二代 Tensor Core(支持 FP16/INT8),支持加速深度学习推理。
- GDDR6显存:带宽提升至 14 Gbps(RTX 2080 Ti 显存带宽 616 GB/s)。
- DLSS 1.0:基于 AI 的超采样技术,提升游戏帧率。
- 性能特性
- 实时光线追踪和AI驱动的图形渲染,光线追踪性能10 Giga Rays/sec。
- 支持DLSS(深度学习超采样),提升游戏性能。
- 强大的图形和计算性能,FP32 计算能力(RTX 2080 Ti 达 13.4 TFLOPS)。
- AI 推理:T4 的 INT8 算力 130 TOPS。
- 代表产品
- GeForce RTX 20系列:RTX 2080 Ti、RTX 2070、RTX 2060。
- Titan RTX:高端消费级显卡。
- Quadro RTX系列:如Quadro RTX 8000,Tesla T4 用于专业图形工作站。
4. Ampere(安培)架构(2020)
- 关键技术
- 8nm工艺:采用更先进的8nm工艺,性能和能效大幅提升。
- 第二代RT Core:光线追踪性能提升2倍。
- 第三代Tensor Core:支持更多AI计算任务,性能更强,支持 TF32、FP64、稀疏计算(Sparsity)。
- GDDR6X显存:显存带宽进一步提升,带宽达 19 Gbps(RTX 3090 显存带宽 936 GB/s)。
- 多实例 GPU(MIG):A100 可分割为 7 个独立实例。
- 性能特性
- FP32 计算能力:RTX 3090 达 35.6 TFLOPS,A100 达 19.5 TFLOPS(FP64 9.7 TFLOPS)
- 光线追踪性能:RTX 3090 达 28 Giga Rays/sec
- AI 训练:A100 的 FP16 算力 312 TFLOPS
- 代表产品
- GeForce RTX 30系列:消费级显卡(RTX 3090、RTX 3080、RTX 3070)。
- A100 Tensor Core GPU:面向数据中心的AI和HPC计算卡。
- Quadro RTX A系列:如Quadro RTX A6000,用于专业图形工作站。
5. Ada Lovelace(阿达·洛芙莱斯)架构(2022)
- 关键技术
- 4nm工艺:采用更先进的4nm工艺,性能和能效进一步提升。
- 第三代RT Core:新增 Opacity Micromap Engine,光追效率提升 2 倍。
- 第四代Tensor Core:支持更复杂的AI计算任务,支持 FP8 精度,AI 推理效率提升 4 倍。。
- DLSS 3:引入AI驱动的帧生成技术,大幅提升游戏性能。
- TSMC 4N 制程:晶体管密度提升 2 倍,能效比优化。
- 性能特性
- FP32 计算能力:RTX 4090 达 82.6 TFLOPS
- 光线追踪性能:191 Giga Rays/sec
- AI 推理:FP8 算力 1.32 PetaOPS
- 代表产品
- GeForce RTX 40系列:RTX 4090、RTX 4080、RTX 4070 Ti。
- RTX 6000 Ada Generation:专业图形工作站显卡。
6. Hopper(赫柏)架构(2022)
- 关键技术
- 4nm工艺:专为数据中心设计,性能和能效进一步提升。
- Transformer Engine:专为AI训练和推理优化,支持大规模模型训练,动态切换 FP8/FP16,专为 LLM(大语言模型)优化。
- HBM3显存:支持高带宽显存,提升数据吞吐量,带宽达 3 TB/s(H100 SXM5)。
- 第四代 NVLink(NVLink 4.0):支持多GPU高速互联,互联带宽 900 GB/s(是 A100 的 1.5 倍)。
- DPX 指令集:加速动态规划算法(如基因组学、机器人路径规划)。
- 性能特性
- FP8 计算能力:H100 达 4 PetaOPS
- FP64 计算能力:34 TFLOPS(科学计算场景)
- AI 训练速度:比 A100 快 6 倍(GPT-3 训练)
- 代表产品
- H100 Tensor Core GPU:面向数据中心的AI和HPC计算卡。
7. Blackwell(布莱克韦尔)架构(2024)
- 关键技术
- 3nm工艺:采用更先进的3nm工艺,性能和能效进一步提升。
- 第四代RT Core:光线追踪性能进一步提升。
- 第五代Tensor Core:支持更复杂的AI计算任务。
- GDDR7显存:显存带宽进一步提升。
- 性能特性
- 实时光追和AI计算性能达到新高度。
- 高能效比,适合高性能计算和图形渲染。
- 支持下一代AI和图形技术。
- 代表产品
- GeForce RTX 50系列:预计将推出基于Blackwell架构的消费级显卡。
- B100 Tensor Core GPU:面向数据中心的AI和HPC计算卡。
参考:
- https://www.0101ssd.com/a/yjnmxnvahxnjfnksnxghqiauytpoxiusnxjhaytrhsn
- https://developer.aliyun.com/article/1396336
- https://blog.csdn.net/qq_45351564/article/details/145413438
- https://resources.nvidia.com/en-us-tensor-core/nvidia-tensor-core-gpu-datasheet
- https://www.nvidia.cn/content/dam/en-zz/Solutions/Data-Center/nvidia-dgx-a100-datasheet.pdf
- https://www.nvidia.cn/data-center/products/a10-gpu/
- https://www.nvidia.cn/data-center/products/a30-gpu/
- https://zhuanlan.zhihu.com/p/691287727
- https://chaoqing-i.com/upload/20231128/NVIDIA%20H800%20GPU%20Datasheet.pdf