当前位置: 首页 > news >正文

GPU硬件架构和配置的理解

从公司架构理解GPU架构

想象一个GPU就像一家大型科技公司,它的任务是处理图形和计算任务(“干活”)。

硬件概念公司架构比喻作用和特点
Platform (平台)集团公司最大的独立实体。比如谷歌Alphabet是一个集团公司,它旗下有谷歌、Waymo、Verily等子公司(Platform)。每个子公司(Platform)在法律和财务上是独立的。在电脑里,插两块不同型号的显卡,就是两个独立的Platform。
Die (芯片)子公司的大型办公楼一个子公司(Platform)可能在一栋巨大的办公楼(Die)里办公。这栋楼里有自己的基础设施(供电、网络)。楼和楼之间通过高速公路(Socket/Interposer)连接。一栋楼可以容纳很多部门(Device)。
Device (设备)部门或团队一栋办公楼(Die)里会有很多不同的部门(Device),比如搜索部门、广告部门、YouTube部门。每个部门相对独立,有自己的项目管理和资源,但共享整栋楼的基础设施(食堂、网络端口)。
Core (核心)项目组一个部门(Device)里会有多个项目组(Core),比如广告部门下有“精准投放组”、“数据分析组”。每个组都能独立完成一个任务。
Cluster (簇)组内的工程师一个项目组(Core)不是一个人,它是由多名工程师(Cluster)组成的。一个Cluster就是最基础的计算单元。组里工程师越多(Cluster越多),这个组的整体战斗力就越强。
MMU/Page Table (页表)公司的权限管理系统规定了哪个部门(Device)、哪个项目组(Core)能访问公司的哪些机密数据和资源(内存地址)。共享页表就是让两个部门共用一套权限规则,它们能看到同一份数据。

详细讲解每个硬件概念

1. Die (芯片)

  • 是什么: 这是一片独立的硅晶片,就是我们通常意义上说的“芯片”。它是在工厂里一次性制造出来的。
  • 为什么重要: 制造非常大的芯片(巨型Die)良品率很低,成本极高。就像盖一栋超大的摩天大楼,难度和风险都很高。
  • 解决方案: 现代GPU(如AMD的RX 7000系列,NVIDIA的H100)采用Chiplet(小芯片)设计:Instead of building one gigantic die, they package multiple smaller dies together onto a single carrier (封装基板)。这些dies之间通过超高速内部总线(如Infinity Fabric, NVLink)通信。
  • dieIDs=0,0,1,1 表示这个Platform由两个Dies组成,第一个Die上有两个Device(ID 0和1),第二个Die上也有两个Device(ID 2和3)。

2. Cluster (簇) 和 Core (核心)

这两个概念容易混淆,但它们是一个层级关系。

  • Core (核心)
    • 这是一个功能完整的处理单元。你可以把它想象成一个独立的“大脑”,能够接收、处理并完成一整个任务(比如渲染一个复杂的物体)。
    • 一个GPU包含很多个这样的Cores,它们并行工作,实现强大的性能。
  • Cluster (簇):
    • 这是组成一个Core的最基本计算单元。一个Core内部包含很多个完全相同的Clusters
    • 每个Cluster都包含算术逻辑单元(ALU),负责进行最基础的数学运算(加减乘除)。
    • 为什么这样设计? 这是一种高效的设计哲学。设计一个强大的、复杂的单一Core很难。Instead, 设计一个简单小巧的Cluster,然后在一个Core内部复制几十个这样的Cluster,让它们协同工作,效率更高。这就像一支军队,不是靠一个超人,而是靠成千上万训练有素的士兵组成方阵。
  • 关系类比
    • Core = 一个完整的交响乐团。它能演奏一整首交响乐(处理一个完整任务)。
    • Cluster = 乐团里的一位小提琴手。他只会拉小提琴(做基础运算),但很多位小提琴手一起工作,就能奏出恢弘的乐章。
    • userClusterMasks: 这个参数就是用来配置每个乐团(Core)里,哪些乐手(Cluster)今天来上班0x7f (二进制 01111111) 意味着这个Core内部的128个Clusters中,低7位对应的Cluster被启用了(比如启用了7个),其他的被禁用了。这用于模拟部分硬件损坏或节能配置。

3. MMU 和 Page Table (内存管理单元和页表)

  • 是什么MMU是内存管理单元,Page Table是页表,它们是CPU和GPU中至关重要的组件。
  • 作用
    1. 虚拟内存: 程序看到的内存地址(虚拟地址)和实际的物理内存地址是不同的。MMU负责在两者之间进行翻译
    2. 隔离与保护: 确保程序A不能胡乱访问程序B的内存数据,否则系统会崩溃。
    3. 共享内存: 也可以让多个程序(或多个GPU Device)安全地访问同一块物理内存。
  • combineDevIDs 的作用
    • 每个Device通常有自己独立的MMU和页表,这意味着它们看到的“内存世界”是隔离的
    • 如果想让多个Device(比如Die0上的Device0和Die1上的Device1)紧密合作,共同处理一个超大的任务,它们就需要共享同一块内存数据
    • 如何共享? 就是让它们的MMU使用同一份页表。这样,它们对同一个虚拟地址的访问会被翻译到同一个物理地址上。
    • combineDevIDs=0,0,1,2 就是在设置:谁和谁共享谁的页表。这相当于在公司的权限系统里,把几个部门的权限合并了,让他们可以共同操作同一个项目的数据。


文章转载自:

http://NLsTVmbH.brbnc.cn
http://BGiNjyn2.brbnc.cn
http://gK8UQ3wM.brbnc.cn
http://8Q8Q9eyZ.brbnc.cn
http://ndMf26kI.brbnc.cn
http://1MsdfthB.brbnc.cn
http://ICr6KBPB.brbnc.cn
http://XfGFC474.brbnc.cn
http://a35Qlfh0.brbnc.cn
http://cjDJrzPO.brbnc.cn
http://XZNayzm1.brbnc.cn
http://ch0jGTzl.brbnc.cn
http://yRRXqRxm.brbnc.cn
http://p7hUFTZD.brbnc.cn
http://SJhzAuWK.brbnc.cn
http://kYJhAn4f.brbnc.cn
http://yvHhVRw5.brbnc.cn
http://qCgPnyZp.brbnc.cn
http://PaGWRXYS.brbnc.cn
http://SlXcJthA.brbnc.cn
http://qhlQYj4S.brbnc.cn
http://PldV5N4g.brbnc.cn
http://Pp6ebg7t.brbnc.cn
http://yGDrhmWd.brbnc.cn
http://OBJLzIus.brbnc.cn
http://6bA8BSDn.brbnc.cn
http://1QqE87tq.brbnc.cn
http://okWHFOg6.brbnc.cn
http://jE9ITVy9.brbnc.cn
http://ZPrjSCfm.brbnc.cn
http://www.dtcms.com/a/376254.html

相关文章:

  • C++类和对象初识
  • 笔记:乐鑫 (Espressif) 的生态策略与开发者悖论
  • SELinux策略:域转换与类型继承
  • 【VLMs篇】06:Cosmos-Reason1:从物理常识到具身推理
  • 图漾相机 FM851-E2 相关资料
  • 资产管理什么软件好
  • npm 安装命令中关于 @ 的讲解,如:npm install @vue-office/docx vue-demi
  • PowerBI 没实现的的联动同步下钻,QuickBI 实现了
  • k8s+jenkins+harbor构建Devops平台
  • 【中文教材】35. 证券市场指数
  • 36.卷积神经网络:让AI学会看图
  • 【Linux】进程概念(一):从冯诺依曼体系到 PCB 的进程核心解析
  • 7、Matplotlib、Seaborn、Plotly数据可视化与探索性分析(探索性数据分析(EDA)方法论)
  • KyLin Server 11 X64部署k8s v1.34.0
  • 【Redis】双写一致性及数据持久化
  • UE5全场景应用与核心优势解析 , 川翔云电脑渲染支持
  • 用deepseek对GPU服务器进行压力测试
  • day27|前端框架学习
  • YOLOv8 Linux 部署指南(GPU CPU 完整版)
  • 服务器都是用的iis, 前端部署后报跨域,不是用同一个服务器 是前端项目的服务器做Nginx转发,还是后端项目的服务器做Nginx转发?
  • 43.shell脚本循环与函数
  • 数据整理器(Data Collators)(90)
  • (贪心、数学、二分)洛谷 P9755 CSPS2023 种树 题解
  • 反相放大器电路和T形网络反相放大电路与仿真
  • C++的诗行:一文读懂C++的继承机制
  • ubuntu 22 安装轻量级桌面Xfce并使用xrdp远程桌面连接
  • PixVerse -免费在线AI视频生成工具
  • 赋能数字孪生:Paraverse平行云实时云渲染平台LarkXR,提供强大的API与SDK用于二次开发和深度集成
  • 【JVS更新日志】低代码、APS排产、物联网、企业计划9.10更新说明!
  • 一维差分(扫描线)基础篇