当前位置: 首页 > news >正文

NVIDIA GPU架构学习笔记

https://www.nvidia.cn/technologies/

https://zhuanlan.zhihu.com/p/659535223

Ada Lovelace

https://images.nvidia.cn/aem-dam/Solutions/geforce/ada/nvidia-ada-gpu-architecture.pdf

AD102 是 Ada GPU 系列的旗舰产品,并率先搭载 GeForce RTX 4090 显卡。NVIDIA 也将很快推出后续的 Ada GPU,包括 AD103 和 AD104,它们采用与 AD102 相同的基本架构。
完整的 AD102 GPU 包括 12 个图形处理集群 (GPC)、72 个纹理处理集群 (TPC)、144 个流多处理器 (SM) 以及带有 12 个 32 位内存控制器的 384 位内存接口。AD102 GPU 还包含 288 个 FP64 核心(每个 SM 2 个)。FP64 的 TFLOP 速率是 FP32 运算的 1/64。FP64 核心数量较少是为了确保所有包含 FP64 代码的程序(包括 FP64 Tensor Core 代码)都能正常运行。

GPC 是所有 AD10x Ada 系列 GPU 中占主导地位的高级硬件模块,所有关键图形处理单元都位于 GPC 中。每个 GPC 包含一个专用的光栅引擎、两个光栅操作 (ROP) 分区(每个分区包含八个独立的 ROP 单元)以及六个 TPC。

每个 TPC 包含一个 PolyMorph 引擎和两个 SM。AD10x GPU 中的每个 SM 包含 128 个 CUDA 核心、一个 Ada 第三代 RT 核心、四个 Ada 第四代 Tensor 核心、四个纹理单元、一个 256 KB 的寄存器文件和 128 KB 的 L1/共享内存,可根据图形或计算工作负载的需求配置不同的内存大小。

AD10x SM 分为四个处理块(或分区),每个分区包含一个 64 KB 的寄存器文件、一个 L0 指令缓存、一个 Warp 调度器、一个调度单元、16 个专用于处理 FP32 运算的 CUDA Core(每时钟周期最多 16 次 FP32 运算)、16 个可处理 FP32 或 INT32 运算的 CUDA Core(每时钟周期 16 次 FP32 运算或 16 次 INT32 运算)、一个 Ada 第四代 Tensor Core、四个加载/存储单元以及一个执行超越指令和图形插值指令的特殊功能单元 (SFU)。

相关文章:

  • 上海最新资讯重庆seo什么意思
  • 怎么做网站推广世界杯怎么做好网站搜索引擎优化
  • 做tb任务赚钱的网站2022最新时事新闻及点评
  • 烟台企业做网站推广网站源码
  • 湛江网站建设北京seo服务行者
  • 唐山app开发日照网站优化公司
  • 时序数据库IoTDB可实现的基本操作及命令汇总
  • Linux操作系统Nginx Web服务
  • 16、nrf52840蓝牙学习(唯一ID加密与解密)
  • VRRP:解决路由器单点故障的终极方案
  • wpa_supplicant连接到了路由,但是 udhcpc会分配到不同网段的ip,路由器ip为192.168.0网段,板子分配ip为192.168.1的网段
  • 2025.6.24总结
  • 数组题解——​合并区间【LeetCode】
  • Python 猜数字小游戏:Tkinter 实现的互动猜数挑战
  • json.decoder.JSONDecodeError: Unexpected UTF-8 BOM (decode using utf-8-sig)
  • 【计算机组成原理01】:主存与Cache的地址映射
  • 【Docker基础】Docker容器管理:docker stop详解
  • 洛谷 删数的问题 贪心
  • C/C++库开发完全指南:从静态库到动态链接的深度解析
  • Unity反射机制
  • 【Linux网络与网络编程】15.DNS与ICMP协议
  • 报错:macOS 安装 sentencepiece
  • VIVADO导出仿真数据到MATLAB中进行分析
  • Spring Boot 中整合 Redis
  • 防御OSS Bucket泄露:RAM权限策略+日志审计+敏感数据扫描三重防护
  • 10.多进程服务器端