NVIDIA GPU架构学习笔记
https://www.nvidia.cn/technologies/
https://zhuanlan.zhihu.com/p/659535223
Ada Lovelace
https://images.nvidia.cn/aem-dam/Solutions/geforce/ada/nvidia-ada-gpu-architecture.pdf
AD102 是 Ada GPU 系列的旗舰产品,并率先搭载 GeForce RTX 4090 显卡。NVIDIA 也将很快推出后续的 Ada GPU,包括 AD103 和 AD104,它们采用与 AD102 相同的基本架构。
完整的 AD102 GPU 包括 12 个图形处理集群 (GPC)、72 个纹理处理集群 (TPC)、144 个流多处理器 (SM) 以及带有 12 个 32 位内存控制器的 384 位内存接口。AD102 GPU 还包含 288 个 FP64 核心(每个 SM 2 个)。FP64 的 TFLOP 速率是 FP32 运算的 1/64。FP64 核心数量较少是为了确保所有包含 FP64 代码的程序(包括 FP64 Tensor Core 代码)都能正常运行。
GPC 是所有 AD10x Ada 系列 GPU 中占主导地位的高级硬件模块,所有关键图形处理单元都位于 GPC 中。每个 GPC 包含一个专用的光栅引擎、两个光栅操作 (ROP) 分区(每个分区包含八个独立的 ROP 单元)以及六个 TPC。
每个 TPC 包含一个 PolyMorph 引擎和两个 SM。AD10x GPU 中的每个 SM 包含 128 个 CUDA 核心、一个 Ada 第三代 RT 核心、四个 Ada 第四代 Tensor 核心、四个纹理单元、一个 256 KB 的寄存器文件和 128 KB 的 L1/共享内存,可根据图形或计算工作负载的需求配置不同的内存大小。
AD10x SM 分为四个处理块(或分区),每个分区包含一个 64 KB 的寄存器文件、一个 L0 指令缓存、一个 Warp 调度器、一个调度单元、16 个专用于处理 FP32 运算的 CUDA Core(每时钟周期最多 16 次 FP32 运算)、16 个可处理 FP32 或 INT32 运算的 CUDA Core(每时钟周期 16 次 FP32 运算或 16 次 INT32 运算)、一个 Ada 第四代 Tensor Core、四个加载/存储单元以及一个执行超越指令和图形插值指令的特殊功能单元 (SFU)。