【GPU并行计算】不同设备上的GPU性能分析
NVIDIA Gefore RTX 4080
CUDA Capability Major/Minor version number: 8.9
设备的计算能力版本为8.9,表示支持的功能集和架构特性
Total amount of global memory: 16057 MBytes (16836919296 bytes)
显卡的全局内存总量为16GB
MapSMtoCores for SM 8.9 is undefined. Default to use 128 Cores/SM
计算能力8.9的SM(流式多处理器)核心数未定义,默认每个SM有128个CUDA核心
(076) Multiprocessors, (128) CUDA Cores/MP: 9728 CUDA Cores
- 76个多处理器(SM)
- 每个SM有128个CUDA核心
- 总计:76 × 128 = 9728个CUDA核心
Warp size: 32
线程束(Warp)大小为32,即每个Warp包含32个线程
Maximum number of threads per multiprocessor: 1536
每个SM最多支持1536个线程(即,48个线程束)
Maximum number of threads per block: 1024
每个线程块最多支持1024个线程
NVIDIA A100 
CUDA Capability Major/Minor version number: 8.0
设备的计算能力版本为8.0,表示支持的功能集和架构特性
Total amount of global memory: 81053 MBytes (84990623744 bytes)
显卡的全局内存总量为80GB
(108) Multiprocessors, (64) CUDA Cores/MP: 6912 CUDA Cores
- 108个多处理器(SM)
- 每个SM有64个CUDA核心
- 总计:108 × 64 = 6912个CUDA核心
Warp size: 32
线程束(Warp)大小为32,即每个Warp包含32个线程
Maximum number of threads per multiprocessor: 2048
每个SM最多支持2048个线程(即,64个线程束)
Maximum number of threads per block: 1024
每个线程块最多支持1024个线程
Tesla T4
CUDA Capability Major/Minor version number: 7.5
设备的计算能力版本为7.5,表示支持的功能集和架构特性
Total amount of global memory: 14931 MBytes (15655829504 bytes)
显卡的全局内存总量为14.9GB
(40) Multiprocessors, (64) CUDA Cores/MP: 2560 CUDA Cores
- 40个多处理器(SM)
- 每个SM有64个CUDA核心
- 总计:40 × 64 = 2560个CUDA核心
Warp size: 32
线程束(Warp)大小为32,即每个Warp包含32个线程
Maximum number of threads per multiprocessor: 1024
每个SM最多支持1024个线程(即,32个线程束)
Maximum number of threads per block: 1024
每个线程块最多支持1024个线程