当前位置: 首页 > news >正文

GPU常见规格及算力

    GPU型号

    发布时间

    架构

    Compute Cap

    NVENC

    NVDEC

    NVJPEG

    cores数量

    Tensor Core数量

    频率(MHz)

    带宽(GB/s)

    功耗(W)

    FP32

    (TFLOPS)

    稠密

    FP16

    (TFLOPS)

    稠密

    FP16

    (TFLOPS)

    稀疏

    INT8

    (TOPS)

    稠密

    INT8

    (TOPS)

    稀疏

    2080Ti2018.9.20Turing7.57th Gen4th Gen04352544154561625013.45

    26.90(1*)

    不支持(2*)

    54不支持
    T42018.9.13Turing7.57th Gen2x 4th Gen025603201590320708.14165.13(3*)不支持(2*)130不支持
    Thor

    2022.9

    (2025.5)(6*)

    Blackwell2x NVENC2x NVDEC未知256096?1575273130(max)

    8.064(7*)

    250(8*)

    500(8*)

    517(7*)

    1035(7*)
    A102021.4.12Ampere8.67th Gen2x 5th Gen092162881695600.215031.24125250250500

    Orin

    (64GB)

    2023.3Ampere8.6NVENCNVDECNVJPEG2048641300204.815-60

    5.3

    43.5(4*)

    85(4*)

    137.5(4*)

    (DLA: 11.4)

    170

    (DLA: 105)

    40902022.9.20Ada8.92x 8th Gen5th Gen0163845122520100845082.58330(5*)660(5*)660.6(5*)1321.2(5*)
    L42023.3.21Ada8.92x 8th Gen4x5th Gen4?742424015633007230.3121242242485
    L202023.11.16Ada8.93x3x4?11776368225086427559.35119.5239239478
    L402022.10.13Ada8.93x 8th Gen3x5th Gen018176568225086430090.52181362362724

    1. RTX 2080 Ti 算力:  消费级显卡官方文档通常不直接标注TFLOPS/TOPS。此数据来自权威硬件评测媒体TechPowerUp的GPU数据库,其FP16/INT8性能是基于Tensor Core在稠密计算下的理论值
    2. Turing架构的稀疏性: Turing架构(2080 Ti, T4)的Tensor Core不支持稀疏,Ampere架构引入的“结构化稀疏”硬件加速功能。因此,它们没有独立的稀疏算力指标;INT8 通过 Tensor Core 加速但无稀疏优化
    3. T4 混合精度: T4官方文档中的FP16和INT8性能数字是其Tensor Core在理想的混合精度计算下的峰值,代表了其在AI推理任务中的强大能力
    4. Jetson Orin 64G 算力构成: Orin的总AI算力(275 TOPS)是其集成的Ampere GPU、深度学习加速器(DLA)和CPU共同贡献的。上表中的FP16和INT8数字是GPU和DLA共同提供的峰值AI算力,其中FP32是纯GPU的CUDA性能
    5. 官方规格种只给出了1321.2的性能,但实际上4090的性能分很多情况,1312是Peak INT8 Tensor TOPS的稀疏算力,具体可以查看参考文档
    6. 2022年宣布,直到2025年5月才发布要上市的规格
    7. 来源于2025.5月nvidia的官方文档
    8. 来源于2025nvidia的GTC 2025

    参考资料:

    1. GPU编解码信息来源
    2. A10:A10 Tensor Core GPU | NVIDIA 
    3. 4090:https://images.nvidia.cn/aem-dam/Solutions/geforce/ada/nvidia-ada-gpu-architecture.pdf
    4. L4: L4 Tensor Core GPU for AI & Graphics | NVIDIA
    5. T4: NVIDIA T4 Tensor Core GPU for AI Inference | NVIDIA Data Center
    6. l40: https://www.nvidia.com/content/dam/en-zz/Solutions/design-visualization/support-guide/NVIDIA-L40-Datasheet-January-2023.pdf
    7. l20:
      1. NVIDIA L20 Specs | TechPowerUp GPU Database
      2. NVIDIA L20 | 深度学习 图像识别 自然语言处理 GPU - 网络天地
      3. https://zhuanlan.zhihu.com/p/2892079972
    8. ORIN:

      1. https://www.nvidia.com/content/dam/en-zz/Solutions/gtcf21/jetson-orin/nvidia-jetson-agx-orin-technical-brief.pdf
      2. https://openzeka.com/wp-content/uploads/2022/02/Jetson_AGX_Orin_DS-10662-001_v1.1.pdf
    9. Thor资料来源:

      1. 官方文档:https://developer.download.nvidia.cn/assets/embedded/secure/jetson/thor/docs/Jetson_Thor_Product_Brief_PB-12379-001_v0.1.pdf

      2. reddit: https://www.reddit.com/r/nvidia/comments/1jg6m1e/jetson_thor_specifications_announced/

    10. other

    关于算力的一些说明

    1. L20 支持 Ada Lovelace 架构的稀疏性,理论上 FP16 稀疏算力可以达到稠密的两倍,即 239 TFLOPS;理论上 INT8 稀疏算力可以达到稠密的两倍,即 478 TOPS
    2. Orin 内部还有两个 NVDLA (NVIDIA Deep Learning Accelerator) 引擎,它们也提供额外的 INT8 稀疏算力。例如,64GB 版本每个 DLA 提供 52.5 TOPS (稀疏 INT8),总计额外 105 TOPS。
    3. Blackwell 架构引入了 FP8 和 FP4 精度,FP16 算力通常是 FP8 稠密算力的一半或通过其他方式给出,具体数值需要参考更详细的技术文档。早期公布的资料通常会强调 FP8 和 FP4
    4. Orin 的 Ampere GPU 支持稀疏性,这意味着在特定稀疏模式下,理论上 FP16 算力可以达到稠密算力的两倍。然而,官方文档通常会以 INT8 的稀疏 TOPS 作为主要宣传点,FP16 稀疏算力的数据不那么直接给出,但可以推断。
    5. Thor 的设计强调其在更低精度(如 FP8、FP4)上的卓越性能。FP16 算力通常会与这些新精度一起提及
    6. 稀疏算力:仅 Ampere/Ada/Hopper 及以上架构支持(需模型满足 2:4 结构化稀疏),实际生效依赖软件优化
    7. 平时说的A10的fp16稀疏算力是250TFLOPS,它表示的是:NVIDIA A10 GPU 的第三代 Tensor Core,在执行 FP16 矩阵乘法累加运算时,如果能够利用稀疏性加速(通常是 2:4 稀疏模式),理论上能够达到的峰值吞吐量为 250 TFLOPS。这个数字是在 Tensor Core 进行 FP16 输入和 FP16 累加的情况下实现的,即Peak FP16 Tensor TFLOPS with FP16 Accumulate
    8. 一个 GPU 的 FP32 算力,它主要指的并不是 Tensor Core 的算力,而是 CUDA Core 执行单精度浮点运算的理论峰值能力,虽然从 Ampere 架构开始,Tensor Core 也能通过 TF32(Tensor Float 32)模式间接加速 FP32 输入的矩阵乘法,但这个“加速”是基于将 FP32 数据转换成 TF32 格式进行内部运算,然后再输出 FP32 结果。这与 CUDA Core 直接执行纯 FP32 运算是不同的机制

    关于稠密算力和稀疏算力

    FP16稀疏算力并非所有GPU都具备的能力,它是一项与GPU硬件架构强相关的技术。

    Turing 架构 (例如:Tesla T4, GeForce RTX 2080 Ti)

    • 算力特点:Turing架构的第二代Tensor Core(张量核心)极大地提升了FP16的计算性能,但它只支持稠密计算

    • 硬件能力:当Turing GPU处理一个矩阵时,它会无差别地计算每一个元素。即便某个权重是零,计算单元也依然会执行“乘以零”这个操作,无法跳过。

    • 结论Turing架构没有独立的“稀疏算力”概念。其FP16性能只有一个值,即稠密算力。虽然其Tensor Core性能强大,但无法从模型的稀疏性中获得硬件层面的直接加速。

    Ampere 架构 (例如:Jetson AGX Orin, A100, GeForce RTX 30系列)
    • 算力特点:Ampere架构是NVIDIA的一个革命性升级,其第三代Tensor Core首次在硬件层面引入了“结构化稀疏(Structured Sparsity)”技术

    • 硬件能力:Ampere的Tensor Core能够识别一种特定的**“2:4稀疏模式”**(即在一个由4个权重组成的小块中,允许有两个非零值)。当它遇到符合这种模式的稀疏数据时,硬件可以直接跳过两个零值的计算,从而在处理稀疏矩阵时,吞吐量(即算力)直接翻倍

    • 结论Ampere架构及之后的架构(如Hopper, Blackwell)同时拥有稠密和稀疏两种算力指标。其稀疏算力理论上是稠密算力的2倍

    其他参考:

    1. 百度云关于几款GPU的使用场景说明
    2. (L4 vs T4)https://zhuanlan.zhihu.com/p/652803924

    相关文章:

  • 住房和城乡建设部建造师网站seo视频教程百度网盘
  • 一键抓取的网站怎么做seo搜索推广费用多少
  • 深圳知名网站建设平台优秀网站设计网站
  • 临沂做网站推广的公司有爱站网关键词工具
  • 湛江网站建设托管内容营销
  • 如何查看网站语言免费找客源软件
  • Langchain实战指南:从入门到精通AI链式编程!
  • 使用 ttrpc 实现高效的进程间通信(附 Go Demo)
  • 从零到一训练一个 0.6B 的 MoE 大语言模型
  • 6月24日星期二今日早报简报微语报早读微语早读
  • 代码随想录|图论|02深度优先搜索理论基础
  • JVM(11)——详解CMS垃圾回收器
  • Excel学习04
  • IAR平台全面升级,提升瑞萨MCU架构的嵌入式软件开发效率
  • 从零开始学习 Go 语言:快速入门指南(完整版)
  • 左神算法之数字字符串解码方案计数算法
  • 开篇-认识Gin——Go语言Web框架的性能王者
  • Redis 哨兵模式学习笔记
  • 华为云Flexus+DeepSeek征文 | DeepSeek-V3/R1 商用服务华为云开通指南及使用体验全解析
  • python果蔬种植销售一体化服务系统
  • 对于高考边界的理解以及未来就业层级的学习与思考
  • leetcode114-二叉树展开为链表
  • `docker run -it --rm` 笔记250624
  • 论文笔记(八十六)V-HOP: Visuo-Haptic 6D Object Pose Tracking
  • vue 3 计算器
  • MySql:DDL,增删改查:创建表