当前位置: 首页 > news >正文

Nvidia GPU 明细表、架构详解

本文将介绍如下内容:

  • Nvidia GPU 明细表
  • Nvidia GPU 架构详解

一、Nvidia GPU 明细表

此处分享

上市时间显卡型号显存TFLOPS(FP16 tensor core - 非稀疏化)互连带宽架构推荐用作训练卡还是推荐卡
2020年5月A10080GB HBM2e312NVIDIA NVLink : 600 GB/s
PCIe : 64 GB/s
Ampere训练卡
2020年9月309024GB GDDR6X142NVLink : 56 GB/s
PCIe : 64 GB/s
Ampere推荐卡
2020年9月A3024GB HBM2165NVLink : 200 GB/s
PCIe : 64 GB/s
Ampere推荐卡
2021年4月A1024GB GDDR6125PCIe 4.0 : 64 GB/sAmpere推荐卡
2022年9月4090D24GB GDDR6X294.2PCIe 4.0 : 64 GB/sAda Lovelace推荐卡
2022年11月H10080GB HBM3989NVLink : 900 GB/s
PCIe : 128 GB/s
Hopper训练卡
2022年11月A80080GB HBM2e312NVLink : 400 GB/s
PCIe : 64 GB/s
Ampere训练卡
2023年3月H80080GB HBM3989NVLink : 400 GB/s
PCIe : 128 GB/s
Hopper训练卡
2023年11月L2048GB HBM3119PCIe : 128 GB/sAda Lovelace推荐卡
2024年年底H2096GB HBM3148NVLink : 900 GB/s
PCIe : 128 GB/s
Hopper训练卡/推荐卡
  • 注:显存技术:

HBM3、HBM2e、HBM2、GDDR6X和GDDR6都是显存(GPU内存)技术,它们在带宽、性能、功耗和成本上存在较大区别:

类型定位功耗应用
HBM3高端服务器,工业AIAI训练、超算计算
HBM2e数据中心,高性能计算较低AI训练、高性能计算
HBM2数据中心,专业计算卡较低数据中心、专业显卡
GDDR6X消费级高端显卡高端游戏显卡
GDDR6主流消费显卡中等中端游戏显卡
  • 二、Nvidia GPU 架构详解
概览

Pascal、Volta、Turing、Ampere、Ada、Hopper、Blackwell

架构名称关键技术性能特点代表产品
PascalCUDA 核心优化,GDDR5X/HBM2 显存,NVLink性能能效提升,支持 VRGeForce GTX 10 系列,Quadro P 系列,Tesla P 系列
VoltaTensor Core,HBM2 显存,NVLink 2.0AI 加速,FP16/INT8 运算优化Titan V,Tesla V100
TuringRT Core,第二代 Tensor Core,DLSS实时光线追踪,混合渲染效果GeForce RTX 20 系列,Quadro RTX 系列,Tesla T4
Ampere第三代 Tensor Core,第三代 RT Core,MIG,PCIe Gen 4高效AI和光线追踪性能,稀疏推理加速GeForce RTX 30 系列,NVIDIA A100
Ada第四代 Tensor Core,第四代 RT Core,DLSS 3极致光线追踪,高效 AI 加速GeForce RTX 40 系列,L40
HopperTransformer Engine,NVLink,HBM3 显存针对大规模训练,更高的互联带宽H100
Blackwell第五代 Tensor Core,第五代 RT Core,新一代显存更强 AI 和光线追踪能力,更高能效GeForce RTX 50 系列(预计),B 系列(预计)
1. Pascal(帕斯卡)架构(2016)
  • 关键技术
    • 16nm FinFET工艺:首次采用16nm工艺,显著提升能效比。
    • GDDR5X/GDDR5显存:支持高带宽显存,提升数据传输速度。
    • 同步多重投影(SMP):优化VR渲染性能,减少重复计算。
    • NVLink:支持多GPU高速互联,提升并行计算能力。
  • 性能特性
    • 高性能计算和图形渲染能力。
    • 能效比显著提升,适合游戏和专业图形工作。
    • 支持DirectX 12和Vulkan API。
  • 代表产品
    • GeForce GTX 10系列:GTX 1080 Ti、GTX 1070、GTX 1060。
    • Titan Xp:高端消费级显卡。
    • Quadro P系列:如Quadro P6000,用于专业图形工作站。
2. Volta(伏特)架构(2017)
  • 关键技术
    • 12nm FinFET工艺:进一步提升能效比。
    • Tensor Core:首次引入专为深度学习设计的Tensor Core,支持混合精度计算。
    • HBM2显存:部分型号采用高带宽显存,提升数据吞吐量。
    • CUDA Core改进:支持更高效的并行计算。
  • 性能特性
    • 强大的AI计算能力,适合深度学习训练和推理。
    • 高性能计算(HPC)和科学模拟。
    • 支持NVLink 2.0,多GPU互联带宽更高。
  • 代表产品
    • Titan V:消费级高端显卡。
    • Tesla V100:面向数据中心的AI和HPC计算卡。
    • Quadro GV100:专业图形工作站显卡。
3.Turing(图灵)架构(2018)
  • 关键技术
    • 12nm FinFET工艺:继续优化能效比。
    • RT Core:首次引入实时光线追踪核心,支持实时光追渲染。
    • Tensor Core:继承Volta架构,第二代 Tensor Core(支持 FP16/INT8),支持加速深度学习推理。
    • GDDR6显存:带宽提升至 14 Gbps(RTX 2080 Ti 显存带宽 616 GB/s)。
    • DLSS 1.0:基于 AI 的超采样技术,提升游戏帧率。
  • 性能特性
    • 实时光线追踪和AI驱动的图形渲染,光线追踪性能10 Giga Rays/sec。
    • 支持DLSS(深度学习超采样),提升游戏性能。
    • 强大的图形和计算性能,FP32 计算能力(RTX 2080 Ti 达 13.4 TFLOPS)。
    • AI 推理:T4 的 INT8 算力 130 TOPS。
  • 代表产品
    • GeForce RTX 20系列:RTX 2080 Ti、RTX 2070、RTX 2060。
    • Titan RTX:高端消费级显卡。
    • Quadro RTX系列:如Quadro RTX 8000,Tesla T4 用于专业图形工作站。
4. Ampere(安培)架构(2020)
  • 关键技术
    • 8nm工艺:采用更先进的8nm工艺,性能和能效大幅提升。
    • 第二代RT Core:光线追踪性能提升2倍。
    • 第三代Tensor Core:支持更多AI计算任务,性能更强,支持 TF32、FP64、稀疏计算(Sparsity)。
    • GDDR6X显存:显存带宽进一步提升,带宽达 19 Gbps(RTX 3090 显存带宽 936 GB/s)。
    • 多实例 GPU(MIG):A100 可分割为 7 个独立实例。
  • 性能特性
    • FP32 计算能力:RTX 3090 达 35.6 TFLOPS,A100 达 19.5 TFLOPS(FP64 9.7 TFLOPS)
    • 光线追踪性能:RTX 3090 达 28 Giga Rays/sec
    • AI 训练:A100 的 FP16 算力 312 TFLOPS
  • 代表产品
    • GeForce RTX 30系列:消费级显卡(RTX 3090、RTX 3080、RTX 3070)。
    • A100 Tensor Core GPU:面向数据中心的AI和HPC计算卡。
    • Quadro RTX A系列:如Quadro RTX A6000,用于专业图形工作站。
5. Ada Lovelace(阿达·洛芙莱斯)架构(2022)
  • 关键技术
    • 4nm工艺:采用更先进的4nm工艺,性能和能效进一步提升。
    • 第三代RT Core:新增 Opacity Micromap Engine,光追效率提升 2 倍。
    • 第四代Tensor Core:支持更复杂的AI计算任务,支持 FP8 精度,AI 推理效率提升 4 倍。。
    • DLSS 3:引入AI驱动的帧生成技术,大幅提升游戏性能。
    • TSMC 4N 制程:晶体管密度提升 2 倍,能效比优化。
  • 性能特性
    • FP32 计算能力:RTX 4090 达 82.6 TFLOPS
    • 光线追踪性能:191 Giga Rays/sec
    • AI 推理:FP8 算力 1.32 PetaOPS
  • 代表产品
    • GeForce RTX 40系列:RTX 4090、RTX 4080、RTX 4070 Ti。
    • RTX 6000 Ada Generation:专业图形工作站显卡。
6. Hopper(赫柏)架构(2022)
  • 关键技术
    • 4nm工艺:专为数据中心设计,性能和能效进一步提升。
    • Transformer Engine:专为AI训练和推理优化,支持大规模模型训练,动态切换 FP8/FP16,专为 LLM(大语言模型)优化。
    • HBM3显存:支持高带宽显存,提升数据吞吐量,带宽达 3 TB/s(H100 SXM5)。
    • 第四代 NVLink(NVLink 4.0):支持多GPU高速互联,互联带宽 900 GB/s(是 A100 的 1.5 倍)。
    • DPX 指令集:加速动态规划算法(如基因组学、机器人路径规划)。
  • 性能特性
    • FP8 计算能力:H100 达 4 PetaOPS
    • FP64 计算能力:34 TFLOPS(科学计算场景)
    • AI 训练速度:比 A100 快 6 倍(GPT-3 训练)
  • 代表产品
    • H100 Tensor Core GPU:面向数据中心的AI和HPC计算卡。
7. Blackwell(布莱克韦尔)架构(2024)
  • 关键技术
    • 3nm工艺:采用更先进的3nm工艺,性能和能效进一步提升。
    • 第四代RT Core:光线追踪性能进一步提升。
    • 第五代Tensor Core:支持更复杂的AI计算任务。
    • GDDR7显存:显存带宽进一步提升。
  • 性能特性
    • 实时光追和AI计算性能达到新高度。
    • 高能效比,适合高性能计算和图形渲染。
    • 支持下一代AI和图形技术。
  • 代表产品
    • GeForce RTX 50系列:预计将推出基于Blackwell架构的消费级显卡。
    • B100 Tensor Core GPU:面向数据中心的AI和HPC计算卡。

参考:

  1. https://www.0101ssd.com/a/yjnmxnvahxnjfnksnxghqiauytpoxiusnxjhaytrhsn
  2. https://developer.aliyun.com/article/1396336
  3. https://blog.csdn.net/qq_45351564/article/details/145413438
  4. https://resources.nvidia.com/en-us-tensor-core/nvidia-tensor-core-gpu-datasheet
  5. https://www.nvidia.cn/content/dam/en-zz/Solutions/Data-Center/nvidia-dgx-a100-datasheet.pdf
  6. https://www.nvidia.cn/data-center/products/a10-gpu/
  7. https://www.nvidia.cn/data-center/products/a30-gpu/
  8. https://zhuanlan.zhihu.com/p/691287727
  9. https://chaoqing-i.com/upload/20231128/NVIDIA%20H800%20GPU%20Datasheet.pdf

文章转载自:

http://qJbPIYtv.fqcLp.cn
http://R7OFKj4h.fqcLp.cn
http://OVvdghFr.fqcLp.cn
http://3sw0ZtTG.fqcLp.cn
http://EWwi23su.fqcLp.cn
http://VAs4LqGe.fqcLp.cn
http://HM18cPA9.fqcLp.cn
http://svoeZN0Y.fqcLp.cn
http://U1yHGNpF.fqcLp.cn
http://3843bsI3.fqcLp.cn
http://6LhckoKe.fqcLp.cn
http://G3TqLMUm.fqcLp.cn
http://Y9NhqsDO.fqcLp.cn
http://xqEzdnst.fqcLp.cn
http://MRRTdIUY.fqcLp.cn
http://TFyxZhtv.fqcLp.cn
http://ZMq7KQMp.fqcLp.cn
http://gdWxtLMp.fqcLp.cn
http://tnWNvbGC.fqcLp.cn
http://KSPeBhgO.fqcLp.cn
http://PeoGkGnF.fqcLp.cn
http://fsyJU6cM.fqcLp.cn
http://5pcEq4uD.fqcLp.cn
http://4MHfYEcT.fqcLp.cn
http://eNnEABgl.fqcLp.cn
http://oqz0VSR1.fqcLp.cn
http://FNNaSZf3.fqcLp.cn
http://3zxMENiL.fqcLp.cn
http://ltElhI1O.fqcLp.cn
http://pwVFf6q2.fqcLp.cn
http://www.dtcms.com/a/381242.html

相关文章:

  • 达梦数据库相关操作语句
  • 拓扑排序--算法题
  • transformer 相对位置编码详解
  • 【学习K230-例程20】GT6700-TCP-Server
  • 一文理清合同金额、已确认金额、累计开票金额、最大可开票金额、未票应收金额之间的关系
  • 复杂任务拆解艺术:如何通过多次对话与提示词工程高效解决难题
  • 函数(其实写文章是为了体验和练习LateX公式)
  • 盒子模型导读
  • 《动物营养与饲料学》复习题五套(含答案)
  • 如何选择?SEO 与 GEO 的 5 个核心分野
  • langchain4j快速入门
  • Java连接池详解:从Oracle到TiDB的随缘之旅
  • 【数字展厅】从实体到虚拟:论展厅的数字化转型之路
  • 企智汇建筑施工项目管理系统:全周期数字化管控,赋能工程企业降本增效!​建筑工程项目管理软件!建筑工程项目管理系统!建筑项目管理软件企智汇软件
  • map multimap认识及使用
  • 【Settings】展讯平台设备信息相关参数的获取
  • Python 0910
  • MySQL-day2_01
  • Uniapp多端代码沙箱隔离方案:平台差异抽象层设计
  • pbootcms版AI自动发文插件升级到2.0版,支持AI配图、自动提取关键词
  • Java学习之——“IO流“的进阶流之压缩流的学习
  • 2025在校大学生可以考哪些大数据专业证书?
  • cte功能oracle与pg执行模式对比
  • 铁路轨道扣件破损视觉检测方案
  • 解释一下C++中内存屏障和它的作用——多线程编程
  • 文献速递 | 徐国良/邵振/陈辉合作揭示DNA甲基化抑制性别决定区的减数分裂重组
  • 如何让 RAG 的检索精准度提升 80%?
  • 镀锌板数控矫平机科普
  • 日志的查看与管理
  • Redis + MySQL 的缓存一致性