当前位置: 首页 > news >正文

【GPU并行计算】不同设备上的GPU性能分析

NVIDIA Gefore RTX 4080

CUDA Capability Major/Minor version number: 8.9​
设备的计算能力版本为8.9,表示支持的功能集和架构特性

​Total amount of global memory: 16057 MBytes (16836919296 bytes)​
显卡的全局内存总量为16GB

MapSMtoCores for SM 8.9 is undefined. Default to use 128 Cores/SM​
计算能力8.9的SM(流式多处理器)核心数未定义,默认每个SM有128个CUDA核心

(076) Multiprocessors, (128) CUDA Cores/MP: 9728 CUDA Cores​

  • 76个多处理器(SM)
  • 每个SM有128个CUDA核心
  • 总计:76 × 128 = 9728个CUDA核心

Warp size: 32​

线程束(Warp)大小为32,即每个Warp包含32个线程

Maximum number of threads per multiprocessor: 1536​

每个SM最多支持1536个线程(即,48个线程束)

Maximum number of threads per block: 1024​
每个线程块最多支持1024个线程

NVIDIA A100 

CUDA Capability Major/Minor version number: 8.0
设备的计算能力版本为8.0,表示支持的功能集和架构特性

​Total amount of global memory: 81053 MBytes (84990623744 bytes)​
显卡的全局内存总量为80GB

(108) Multiprocessors, (64) CUDA Cores/MP: 6912 CUDA Cores​

  • 108个多处理器(SM)
  • 每个SM有64个CUDA核心
  • 总计:108 × 64 = 6912个CUDA核心

Warp size: 32​

线程束(Warp)大小为32,即每个Warp包含32个线程

Maximum number of threads per multiprocessor: 2048​

每个SM最多支持2048个线程(即,64个线程束)

Maximum number of threads per block: 1024​
每个线程块最多支持1024个线程

Tesla T4 

CUDA Capability Major/Minor version number: 7.5
设备的计算能力版本为7.5,表示支持的功能集和架构特性

​Total amount of global memory: 14931 MBytes (15655829504 bytes)​
显卡的全局内存总量为14.9GB

(40) Multiprocessors, (64) CUDA Cores/MP: 2560 CUDA Cores​

  • 40个多处理器(SM)
  • 每个SM有64个CUDA核心
  • 总计:40 × 64 = 2560个CUDA核心

Warp size: 32​

线程束(Warp)大小为32,即每个Warp包含32个线程

Maximum number of threads per multiprocessor: 1024​

每个SM最多支持1024个线程(即,32个线程束)

Maximum number of threads per block: 1024​
每个线程块最多支持1024个线程

http://www.dtcms.com/a/209867.html

相关文章:

  • 移动安全Android——ROOT检测绕过
  • 大模型技术生态全景解析:从基础组件到AGI的演进之路
  • Python基础知识(IO编程)
  • PCB设计实践(二十六)贴片电容与插件电容的全面解析:差异、演进与应用场景
  • 霍尼韦尔HMR2300-D00-485数字模块
  • PPP 流程已经走到启动阶段并且成功进入了 “STAGE_START_PPP
  • 使用js 写一个函数 将base64 转换成file
  • STM32 SPI通信(硬件)
  • FM信号、900M蜂窝信号,2.6G蜂窝EMC设计要点
  • 字符串和常量池的进一步研究
  • 周界安全防护新突破:AI智能分析网关V4周界入侵检测算法的技术应用
  • 利用 DeepSeek 和摩笔马良设计一张海报
  • 从Android开发聊技术
  • Unitree 5. GO1 3D打印配件
  • VsCode配置
  • 学习日记-day14-5.23
  • 机会成本与沉没成本:如何做出理性经济决策
  • questions and answers_1
  • 三格电子上新了——高频工业 RFID 读写器
  • DDS compiler(6.0) IP核配置与使用教程
  • 三、如何优化opengl在gpu上的渲染性能
  • mysql8.4.3配置主从复制
  • 双均线量化交易策略指南
  • 嵌入式学习Day27
  • 八股碎碎念02——Synchronized
  • “可观、可测、可调、可控“,四可功能如何让光伏电站变身电网“优等生“?
  • 2025年中级社会工作者备考精选练习题
  • 看海回测系统回测过程
  • 手写一个简单的线程池
  • 2025版CansCodeAPI管理系统:免费下载,全新升级!