当前位置: 首页 > news >正文

[嵌入式系统-85]:GPU内部结构

GPU(图形处理单元,Graphics Processing Unit)是一种高度并行化的处理器,最初设计用于加速图形渲染任务,但如今广泛应用于高性能计算、人工智能、深度学习等领域。其内部结构与CPU有显著不同,主要体现在高度并行架构大规模数据吞吐能力上。

以下是现代GPU的典型内部结构及其核心组件:


一、GPU整体架构层级

  1. GPU Die(芯片)

    • 包含多个流式多处理器(SM)、内存控制器、缓存系统、互连网络等。
    • 制造工艺:如台积电5nm、NVIDIA Ada Lovelace或AMD RDNA3架构。
  2. Host Interface(主机接口)

    • 负责与CPU通信,通常通过PCIe总线连接。
    • 支持DMA(直接内存访问)以实现高效数据传输。
  3. Memory Subsystem(内存子系统)

    • GDDR6/GDDR6X 或 HBM(高带宽内存)
    • 高速显存提供极高的内存带宽(可达1TB/s以上)
    • 显存控制器分布在芯片周围,支持多通道并行访问
  4. Cache Hierarchy(缓存层次)

    • L1 Cache:每个SM拥有私有L1缓存 + 共享内存(Shared Memory)
    • L2 Cache:全局统一缓存,所有SM共享
    • 只读缓存(Texture Cache, Const Cache)

二、核心计算单元:Streaming Multiprocessor (SM)

这是NVIDIA术语;AMD称之为Compute Unit (CU)

SM的主要组成部分:
组件功能说明
CUDA Cores / ALUs基本算术逻辑单元,执行浮点/整数运算(FP32, INT32)<br>NVIDIA中称为CUDA Core,实际是ALU流水线
Tensor Cores专用矩阵乘法单元,用于AI加速(混合精度计算:FP16, BF16, TF32, INT8, FP8)<br>支持4x4x4矩阵乘加操作,极大提升DL性能
RT Cores光线追踪专用硬件,加速边界体积层次(BVH)遍历和光线-三角形求交测试
Warp Scheduler调度“warp”(一组32个线程)到执行单元<br>隐藏内存延迟,提高利用率
Dispatch Units将指令分发给不同的执行单元(如INT、FP、TENSOR)
Register File每个线程拥有独立寄存器空间<br>容量大(数千KB),支持大量并发线程
Shared Memory / L1 Cache可配置为软件控制的高速片上内存(类似SRAM)<br>用于线程块(block)内协作

示例:NVIDIA A100 GPU 拥有 108 个 SM,每个 SM 包含:

  • 64 个 FP32 CUDA Core
  • 4 个 Tensor Core
  • 4 个 warp 调度器
  • 128 KB 可分割为 shared memory 和 L1 cache

三、并行执行模型(SIMT架构)

GPU采用 SIMT(Single Instruction, Multiple Thread) 架构:

  • 所有线程被组织成 warp(NVIDIA,32线程) 或 wavefront(AMD,64线程)
  • 同一个warp中的线程执行相同的指令,但作用于不同数据
  • 当出现分支分歧(divergence)时,串行执行不同路径,降低效率

例如:

if (threadIdx.x % 2 == 0)a = a + 1;
elseb = b - 1;

会导致同一warp内的线程分两路执行,性能下降。


四、内存体系结构

内存类型特性访问速度范围
Global Memory显存(VRAM),最大容量(如24GB)最慢(~1ns级延迟)所有线程可访问
Shared Memory片上SRAM,由程序员管理极快(接近寄存器)Block内线程共享
L1 / L2 Cache自动缓存global memory数据全局
Constant / Texture Memory只读缓存内存,优化特定访问模式中等全局
Registers每线程专用寄存器文件最快私有
Local Memory实际位于global memory,用于溢出变量线程私有

五、典型GPU架构演进(以NVIDIA为例)

架构代表产品关键特性
TuringRTX 20系列引入RT Core和Tensor Core,实时光追
AmpereA100, RTX 30系列第二代RT Core,第三代Tensor Core,支持稀疏化
HopperH100引入Transformer Engine,FP8支持,MMA指令增强
Ada LovelaceRTX 40系列第三代RT Core,第四代Tensor Core,DLSS 3(帧生成)

六、AMD GPU对比(RDNA/RDNA3架构)

组件AMD术语对应NVIDIA
Compute Unit (CU)相当于SMStream Multiprocessor
SIMD Units4个向量单元类似warp调度
AI AcceleratorMatrix Cores(部分型号)Tensor Cores
Infinity Cache大容量片上缓存——(类似L3)

七、应用场景对结构的影响

应用类型结构需求
游戏渲染强调纹理单元、ROPs、光栅化效率
深度学习训练高密度Tensor Core、大显存、HBM
科学计算FP64性能、ECC内存支持
推理部署INT8/FP8低精度支持、能效比高

总结:GPU结构特点

✅ 高度并行:成千上万个核心同时工作
✅ 高内存带宽:远超CPU的显存带宽
✅ SIMT执行模型:单指令多线程,适合规则数据并行
✅ 异构计算平台:配合CPU进行任务分工(CPU负责控制流,GPU负责数据并行)
✅ 专用加速单元:Tensor Core、RT Core 提升AI与图形性能

http://www.dtcms.com/a/466868.html

相关文章:

  • 珠海网站建设哪个平台好wordpress的html
  • 网站开发佛山南京微信网站建设
  • 沈阳市住房和城乡建设局网站首页wordpress会员互动
  • 建站行业现状探讨有哪些网站可以自己做加视频
  • RPA是什么?企业如何借助有赞平台实现订单与会员自动化
  • cpp03:小项目Da
  • wordpress 商品站网站建设 猴王网络
  • 整站seo优化一般多少钱仿it资讯类网站源码
  • 如何建设一个静态网站宝塔怎么做网站的301跳转
  • 做静态网站有什么建议佛山家居网站全网营销
  • 【武大图书馆事件全过程】免费分享
  • SVN 抓取状态
  • Shell 脚本编程全解析:从入门到企业级实战
  • 嘉兴做网站优化杭州小周seo
  • 把网站做成app大冶市建设局网站
  • 吉林分销网站建设视频转文字网页
  • 厦门响应式网站网页做推广
  • 《中国个人信息保护法》解读与实践案例分析
  • 解除网站开发合同 首付款是否退花都区网站建设
  • SQL 注入详解:从原理到实战
  • 校园网站建设情况抽奖网站做的下去吗
  • 5.数据分析Matplotlib(数据可视化)
  • 西双版纳网站制作公司网站集约化建设题目
  • hot100的解析
  • 企业网站建设上机考试微信推广引流方法
  • 【LangChain】P19 LangChain Memory(一):让 AI 拥有“记忆力“的秘密
  • 揭阳网站制作案例宝安中心医院上班时间
  • 吴江开发区建设局网站如何建立网站站点
  • 娱乐公司网站模板西安市网站搭建
  • 做网站运用的软件郑州百姓网免费发布信息网