GPU基础知识
概述
GPU、NPU、TPU
GPU、NPU和TPU只是不用时期不同公司对于AI计算单元不同称谓。
Graphics Processing Unit,图形处理单元,即显卡
。核心设计理念在于高度并行架构,拥有大量的运算单元(SM,流处理器),可以同时处理多个数据,特别适合数据挖矿。主要分为两大类:
- 专门用于图形和图像处理的传统显卡;
- 为AI计算提供加速的专用加速卡。
NPU,Neural Processing Unit,神经处理单元,专为机器学习领域中神经网络的计算需求而设计的处理器,如卷积、点积和矩阵运算等。可视为一种针对AI计算优化的加速卡。模拟人脑神经元的工作方式,通过高效的硬件架构和优化算法,显著加快神经网络中的复杂计算过程,包括大规模矩阵运算和卷积运算等。
TPU
Tensor Processing Unit,张量处理单元,一种针对AI训练中多维数据(张量)处理而设计的处理器。由谷歌开发,在概念上与NPU相似。
Cloud TPU,是谷歌推出的云服务。
Cloud TPU上几款:v5p和v5e。第六代TPU Trillium。相较于上一代的TPU v5e,Trillium TPU的单芯片峰值计算性能实现4.7倍的显著提升。在内存方面,Trillium TPU的HBM容量和带宽均翻一番,同时芯片间互连(ICI)的带宽也得到成倍增强。
Trillium TPU搭载第三代SparseCore,这是一种专为处理大规模嵌入而设计的专用加速器,常见于高级排名和推荐系统中。这使得Trillium TPU能够以更快的速度训练下一代的基础模型,同时以更低的延迟和成本提供服务。Trillium TPU的另一个关键优势是其卓越的能效比,比TPU v5e节能超过67%,在可扩展性方面,Trillium TPU能够支持单个高带宽、低延迟的pod扩展至256个TPU。此外,利用多切片技术和Titanium智能处理单元(IPU),Trillium TPU的扩展能力可以跨越数百个pod,通过每秒多PB级的数据中心网络互连,连接到楼宇规模的超级计算机中,实现数万个芯片的协同工作。
HGX、DGX与MGX
HGX:Hyper-scale GPU Accelerator,黑话叫【模组】。核心构成是8块GPU,通过底板实现整合,并且集成NVLink技术以及NVLink SW芯片。由英伟达精心设计,是SXM GPU向服务器厂商供应时的最小形态。它为OEM厂商提供高度可定制的硬件平台,以满足客户特定需求的调整和优化。HGX平台注重灵活性,为不同行业和应用场景提供更多选择。不能独立运作,只有与服务器平台(机头)搭配组合,才能构成一台完整的GPU服务器。
DGX:Deep Learning GPU Training System。英伟达旗下一款GPU服务器,其内部构造除最核心的HGX模组外,还配备机箱、主板、电源、CPU、内存、硬盘、网卡等服务器的标准部件。DGX=HGX+英伟达原厂机头。
MGX:Modular GPU Acceleration Platform。英伟达的模块化和灵活架构计算平台,适用于各种计算需求和数据中心的未来发展。MGX平台的设计旨在通过模块化服务器设计将加速计算引入任何数据中心。
借助MGX,OEM和ODM合作伙伴可以针对不同用例打造量身定制的解决方案,同时节省开发资源并缩短上市时间。该模块化参考架构支持不同的GPU、CPU和DPU配置(包括NVIDIA Grace、x86或其他ARM CPU服务器以及NVIDIA OVX系统),可加速各种企业数据中心工作负载。
MGX可理解为HGX和DGX中间的过渡形态,DGX完完全全是英伟达形态的服务器,HGX是各个OEM厂商的服务器。MGX,则是英伟达为OEM厂商制定制定一系列的标准和规范,好处是既给合作伙伴一定的约束,以加速新上市GPU卡的铺货节奏,又保留合作伙伴自己的LOGO和品牌。
OEM和ODM
OEM(Original Equipment Manufacturer)和ODM(Original Design Manufacturer)是制造业中常见的两种生产模式。
OEM是指品牌厂商委托制造商按照其提供的设计方案、技术要求和质量标准进行产品制造的生产模式。在这种模式下,品牌厂商负责产品的研发、设计、市场推广和销售等环节,而制造商则专注于产品的生产制造。
例如,苹果公司将其iPhone的部分生产订单交给富士康等代工厂商,富士康按照苹果提供的设计图纸、技术规格等进行生产。
特点
- 品牌主导:品牌厂商对产品的整体规划起决定性作用,包括产品的功能、外观、品牌标识等;
- 制造专业化:制造商在生产制造方面具有专业优势,能够高效地组织生产,保证产品质量和产量满足品牌厂商的要求;
- 知识产权归属:产品的知识产权主要归品牌厂商所有,制造商通常只拥有生产过程中的相关工艺技术等有限的知识成果。
ODM是指制造商根据品牌厂商的需求,自行进行产品的设计、研发和生产,然后贴上品牌厂商的商标进行销售的生产模式。在这种情况下,制造商承担了更多的产品开发工作。
例如,一些电脑厂商会找专业的电子制造服务(EMS)提供商,这些提供商根据电脑厂商提出的性能要求、预算等,设计并制造出电脑产品,再贴上电脑厂商的品牌进行销售。
特点
- 制造商主导设计:制造商在产品设计、研发方面发挥主导作用,他们利用自身的研发能力和技术积累来开发产品;
- 品牌定制:品牌厂商可以根据自己的市场需求选择合适的ODM产品,并进行一定程度的定制,如修改外观颜色、添加特定的功能标识等;
- 知识产权共享:ODM产品的相关知识产权可能比较复杂,一般情况下,制造商在设计过程中产生的知识产权部分归制造商所有,但如果品牌厂商对产品进行了进一步的定制开发,也会涉及到知识产权的重新界定。
区别
- 设计研发方面
OEM:品牌厂商提供设计方案和技术要求,制造商按照既定方案生产,基本不涉及产品的原始设计。
ODM:制造商负责产品的设计和研发,品牌厂商主要是提出需求并进行选择。 - 知识产权方面
OEM:产品知识产权主要属于品牌厂商,制造商在生产过程中可能仅拥有一些与生产工艺相关的知识产权。
ODM:知识产权的归属较为复杂,制造商对产品设计有较大的知识产权贡献,品牌厂商通过定制等方式也可能参与到知识产权的形成过程中。 - 合作深度方面
OEM:合作主要集中在生产制造环节,品牌厂商对生产过程进行监督和质量控制,但对产品的设计等前期环节介入较少。
ODM:合作涉及到产品的设计、研发等多个前端环节,品牌厂商与制造商的沟通和协作更为深入和全面。 - 产品差异化方面
OEM:由于产品是按照品牌厂商的设计方案生产,不同品牌厂商的产品如果来自同一家OEM制造商,可能在产品本质上较为相似,差异化主要体现在品牌和市场推广方面。
ODM:制造商可以根据不同品牌厂商的需求进行差异化设计,在一定程度上更容易实现产品的多样化,但如果多个品牌选择同一个ODM产品,可能需要进行更多的定制化来区分。
模组、机头、机柜
机柜:放服务器的柜子。单位是U,Unit,服务器和机架设备的标准高度单位,用于设备在机柜中的物理高度。美国电子工业协会(EIA)制定的标准单位,1U等于1.75英寸(约4.45厘米)。主要作用是确保服务器能够以统一的尺寸安装在机架上。机架上通常有固定服务器的螺孔,以便服务器能够与机架对齐并固定。这种标准化设计使得服务器在机房中的布局更加高效,便于管理和维护。
一个42U机柜可以放多少台服务器?
42U高度机柜并不代表着实际能够放42个1U服务器,因为你要留散热和挪动的空间,你要考虑电力供应,你要考虑整体散热等,还有上下必须要有走线空的地方,还有放交换机、防火墙、显示器等其他设别的地方。
最多可放18~20台服务器。1U服务器之间要留下散热空间;机柜里放1U交换机或服务器,需要2U空间。
核心参数
主要包括算力、显存大小、显存(类型)带宽、功耗、卡间互联技术:
- 算力:指GPU执行浮点运算能力,通常以TFLOPS(每秒浮点操作次数,简写为T)为单位衡量。1GFLOPS等于每秒执行十亿次浮点运算,1TFLOPS等于每秒执行一万亿次浮点运算;
- 显存容量:是GPU用于存储数据和纹理的专用内存,与系统内存(RAM)不同,显存具有更高的带宽和更快的访问速度。显存的大小和性能直接影响GPU处理大规模数据的能力。
- 显存带宽:作为GPU与显存之间数据传输的桥梁;显存带宽=显存位宽x显存频率,显存与显存类型有关,目前主流英伟达Tesla系列卡都是HBM、而GeForce的4090等都是采购GDDR的显存,他们之间的显存带宽差距明显。
- 功耗情况:指单位时间内的能量消耗,反映消耗能量的速率,单位是瓦特(W)。影响的是整机的功耗、机柜的规划和算效比(每KW的算力)等;
- 卡间互联:NVLink是世界首项高速GPU互连技术,与传统的PCIe方案相比,能为多GPU间提供更快速的互联方案。目前H200型号的NVLink技术能够做到卡卡间双向互联900GB/s,而PCIe 5.0的通用互联技术目前仅能做到128GB/s;
算力
智算中心领域在没有特殊说明情况下以FP16精度为准。算力值有三种不同的描述方式:
- 标准FP16:133.8T;
- Tensor Core FP16:989.4T,约1个P,稠密FP16,主流;
- 稀疏矩阵的Tensor Core FP16:1978.9T
解读: - 使用不同的浮点数,算力值不同;
- Tenser Core:英伟达专门推出为AI加速的,可大幅提升算力,参考NVIDIA GPU介绍;
计算方法
GPU算力的计算方法主要基于其硬件架构和数学模型。
关键参数
- CUDA核心数:每个GPU中的CUDA(Compute Unified Device Architecture)核心数量,反映GPU的计算单元数量;
- 核心运行频率:CUDA核心的运行速度,通常以GHz为单位。频率越高,每秒能执行的运算次数越多;
- 每核心单个周期浮点计算系数:决定每个核心在每个时钟周期内能执行的浮点运算次数。
计算方法
- CUDA核心计算法:算力(FLOPS)= CUDA核心数 × 加速频率 × 每核心单个周期浮点计算系数。
应用示例:以A100为例,其CUDA核心数为6912个,加速频率为1.41GHz,每核心单个周期浮点计算系数为2(考虑到Tensor Core的融合乘加指令,一次指令执行会计算两次)。A100的算力(FP32单精度)= 6912 × 1.41 × 2 = 19491.84 GFLOPS ≈ 19.5 TFLOPS。 - 峰值计算法:峰值算力=GPU的时钟周期内指令执行数(F_clk,单位为FLOPS/Cycle) × 运行频率(F_req,单位为GHz) × SM数量(N_SM,单位为Cores)。
应用示例:以A100为例,其单精度FP32指令吞吐为64 FLOPS/Cycle,核心运行频率为1.41GHz,SM数量为108。A100的峰值算力=64 FLOPS/Cycle × 1.41GHz × 108 SM × 2 = 19.491 TFLOPS ≈ 19.5 TFLOPS。
注意事项
- 实际应用性能:GPU的实际应用性能可能受到多种因素的影响,如算法并行性、内存带宽、内存访问模式等;
- 单位换算:需要注意单位之间的换算关系;
- 技术更新:在评估算力时,需关注最新的技术动态和硬件规格。
稠密算力和稀疏算力
稠密算力,指计算进程中数据点彼此关联紧密,需处置大量连续数据的一种算力。典型应用场景:图像处理、视频编码、大规模数值模拟、科学计算、大数据分析、机器学习等密集型计算任务。
特点:
- 高数据吞吐量:因需处理海量数据,故而对内存带宽及存储速度有着颇高要求。
- 高并行性:极为适合借助多核心处理器或GPU来进行并行处理。
- 高能耗:鉴于需处理大量数据,其能耗相对较高。
稀疏算力,指数据点相互间关联程度较低且数据呈现稀疏分布的一种算力。典型应用场景:社交网络分析、推荐系统、基因序列分析等领域。
特点:
- 优化存储:稀疏数据能够借助特殊的数据结构(诸如CSR或CSC)进行存储,从而有效减少内存占用。
- 计算效率:针对稀疏数据的算法能够减少不必要的计算操作,进而提升计算效率。
- 低能耗:由于计算量相对较少,所以能耗较低。
两者是互补和转换关系,而不是非此即彼。
特性 | 稠密算力 | 稀疏算力 |
---|---|---|
数据关联度 | 高 | 低 |
数据存储 | 连续存储 | 稀疏存储,使用特殊数据结构 |
计算模式 | 并行计算 | 稀疏优化算法,可能包含并行计算 |
应用场景 | 图像处理、科学计算 | 社交网络分析、推荐系统 |
能耗 | 较高 | 较低 |
存储效率 | 一般 | 高效 |
算法优化 | 针对大规模数据处理优化 | 针对稀疏数据的计算优化 |
硬件需求 | 高性能CPU/GPU、大容量内存 | 优化的存储解决方案、可能需要特定硬件支持 |
通算、智算、超算
通算、智算、超算作为算力的三种主要类型,在人工智能的不同应用场景中发挥着各自独特的作用。
通算即通用计算能力,是计算机系统中最基础的计算能力,用于执行各种常见的计算任务。它不依赖于特定的技术或平台,是计算机系统进行各种计算任务的基础。
处理器芯片类型
- CPU:通用性强,能处理多种任务,适用日常办公、网页浏览等基础计算;
- RISC-V架构处理器:开源免费,指令集简洁,设计灵活,可定制,适用于对成本和灵活性要求高的嵌入式系统及物联网设备。
应用场景
- 日常办公:中小企业依靠通算顺畅运行文档处理、邮件收发等软件;
- 互联网:电商平台在购物高峰时靠其快速处理订单、更新库存,视频网站借此保障视频流畅播放;
- 文件处理:在轻量级AI应用中,如实时推荐系统,CPU仍然是高性价比的选择。
智算即智能计算能力,侧重于AI和大数据分析,强调计算机系统能够模拟AI,执行复杂的ML算法、NLP、图像识别等高级任务。需要高度并行化和数据驱动的架构,以支持大规模数据训练模型和实现智能化应用。
处理器芯片类型
- GPU:并行架构强,可同时处理多任务,适用于DL训练和推理;
- ASIC(专用集成电路):为特定应用定制,效率高、能耗低,如谷歌TPU,专为机器学习设计,适合大规模数据中心和云计算;
- FPGA(现场可编程逻辑门阵列):可编程、灵活配置,如赛灵思Alveo系列,适合需定制化计算的AI场景,如金融分析、图像处理。
应用场景
- 图像识别:在医学影像分析中,智算技术可辅助医生进行疾病诊断;
- NLP:在客户服务领域,智算驱动的聊天机器人可以自动回答客户的常见问题,提供 24/7 的服务支持;
- 智能推荐系统:智能推荐系统利用智算技术,根据用户的历史行为和偏好,提供个性化的推荐内容;
- 自动驾驶技术:智算能够处理来自传感器的大量数据,包括雷达、激光雷达、摄像头等,实现环境感知、路径规划和决策控制。
超算即超级计算能力,是指由超级计算机等HPC集群所提供的算力,主要用于解决大规模科学计算问题,如新材料、新能源、新药设计、航空航天飞行器设计等领域的研究。超算的核心计算能力由高性能CPU或协处理器提供,注重双精度通用计算能力,追求精确的数值计算。
处理器芯片类型
- 高性能CPU:主频高、核心数多,如AMD EPYC、英特尔至强可扩展处理器,是超算中心的主要算力,用于科学研究和工程计算;
- 协处理器:与CPU搭配,加速特定计算,如Intel至强融核协处理器,提升超算系统性能;
- GPU:在超算中,GPU也用于加速计算,提升超算效率。
应用场景
- 科学研究:超算中心主要立足于科学研究,支撑国家科研体系。其战略目标是解决大系统、大工程、大科学的问题,对提升国家整体科研创新实力和应对科学挑战具有重要战略意义;
- 新材料研发:通过模拟材料的原子结构和物理化学性质,加速新材料的发现和优化过程;
- 新能源开发:在核能、太阳能、风能等领域,超算可以模拟复杂的物理过程,优化能源利用效率;
- 药物研发:利用超算进行药物分子模拟和筛选,加速新药的研发进程;
- 航空航天:超算可以用于飞行器的设计和优化,提高飞行器的性能和安全性。
尽管智算和超算在处理器芯片的使用上各有侧重,但也存在一定的重叠。例如,GPU在智算中用于加速深度学习训练和推理,在超算中也用于加速某些科学计算任务。此外,一些新兴的芯片技术,如异构计算架构,也在智算和超算领域得到应用,进一步模糊了两者的界限。
稀疏技术
稀疏技术在GPU显卡参数中的应用主要是指通过减少模型中的参数数量来提高计算效率,同时尽量保持模型性能。这种技术特别适用于深度学习模型,因为这些模型通常包含大量的参数,其中很多参数可能是冗余的。
实现方式:
- Weight Pruning:权重剪枝,通过移除神经网络中不重要的权重(即将其设置为零)来减少模型的复杂度。可以是非结构化的,即随机地移除权重;也可以是结构化的,即按照某种模式(如整个卷积核或通道)移除权重。结构化剪枝更有利于硬件加速,因为它可以减少内存访问和计算量。
- Fine-grained Structured Sparsity:细粒度结构化稀疏,一种结合细粒度剪枝和结构化剪枝优点的技术。通过在权重矩阵中引入特殊约束,使得非零权重在空间上更紧凑,从而降低权重索引的复杂性,并提高硬件加速的效果。例如,NVIDIA的A100 GPU支持2:4的稀疏模式,即每四个连续的权重值中有两个为零,这种规则模式易于压缩,并且元数据开销较低。
- Sparse Tensor Cores:稀疏张量核,NVIDIA的Ampere架构GPU,如A100,引入稀疏张量核,这些内核可以跳过对零值的计算,从而在执行稀疏矩阵运算时提高计算吞吐量。这种硬件级别的支持使得稀疏矩阵运算更加高效,尤其是在处理大规模稀疏数据时。
- Sparse Inference:稀疏推理,在推理阶段,通过使用稀疏矩阵来减少计算量和内存使用,从而提高推理速度和降低功耗。NVIDIA的TensorRT 8.0支持稀疏张量核,可以加速稀疏网络的推理,与密集网络相比,可以获得显著的性能/瓦特增益。
稀疏技术在GPU显卡中的应用是为了提高计算效率,减少资源消耗,同时尽量保持模型的性能。
HBM
High Bandwidth Memory,高带宽内存,一种高性能的3D堆叠DRAM技术,主要用于满足高性能计算和GPU对内存带宽和容量的高需求。HBM技术由AMD与海力士(Hynix)共同开发,并在2013年首次公布。
HBM是一种3D堆叠DRAM技术,它通过将多个DRAM芯片层叠在一起,并使用高密度的硅通孔(TSV)和微凸点(microbumps)技术,实现与处理器或GPU的垂直互连。这种设计大幅提高内存的带宽和容量,同时减小内存模块的物理尺寸。与传统的GDDR5内存相比,HBM由于其紧凑的设计和高效的数据传输,通常具有更低的功耗。
- 极高带宽:高达1.2TB/s(HBM3),实现快如闪电的数据传输
- 能源效率:降低每比特传输的功耗
- 紧凑设计:较短的互连减少延迟和空间
目前,HBM产品以HBM(第一代)、HBM2(第二代)、HBM2E(第三代)、HBM3(第四代)、HBM3E(第五代)的顺序开发,最新的HBM3E是HBM3的扩展版本。GPU现在一般常见有2/4/6/8四种数量的堆叠,立体上目前最多堆叠12层。
类别 | HBM1 | HBM2 | HBM2E | HBM3 | HBM3E | HBM4 |
---|---|---|---|---|---|---|
年份 | 2014 | 2018 | 2020 | 2022 | 2024 | 2026 |
带宽(GB/s) | 128 | 307 | 460 | 819 | 1225 | ? |
堆叠高度(层) | 4 | 4/8 | 4/8 | 8/12 | 8/12 | 12/16 |
容量(GB) | 1 | 4/8 | 8/16 | 16/24 | 24/36 | 48/64 |
I/O数量(总线位宽,bit) | 1024 | 1024 | 1024 | 1024 | 1024 | 2048 |
I/O速度(数据传输速率) | 1Gbps | 2.4Gbps | 3.6Gbps | 6.4Gbps | 9.2Gbps | ? |
25年?2月26日,美光科技官方宣布开始批量生产HBM3E高带宽内存,其24GB 8H HBM3E产品将供货给英伟达,并将应用于英伟达H200 Tensor Core GPU。美光HBM3E目前拥有24GB容量,引脚速度超过9.2Gb/s,可提供超过1.2TB/s的内存带宽,为AI加速器、超级计算机和数据提供闪电般的数据访问速度。
目前主流AI训练芯片都使用HBM,一颗GPU配多颗HBM。以英伟达最新发布的H200举例,该GPU搭载6个美光HBM3E 24GB高速显存,按道理来说,H200的内存容量应该是246=144GB,内存带宽应该是1.26=7.2TB/s,但英伟达官网发布的参数显存只有141GB,并不是整数,显存带宽也只有4.8TB/s,这是出于量产原因,英伟达保留一小部分作为冗余,以提高良品率。
HBM不断迭代,迭代方向为增加容量和带宽,目前最高层数为12层。海力士2014年推出全世界第一颗HBM,2018年推出HBM2,后续每隔两年推出新一代HBM。
HBM市场主要由三大存储巨头所主导:
- SK海力士:作为HBM技术的主要开发者之一,SK海力士在HBM领域占据领先地位。该公司不仅参与了HBM的早期开发,还持续推动技术的迭代,如HBM2、HBM2E到HBM3等。在HBM技术上的创新和量产能力,使其成为伟达AI芯片HBM的主要供应商,份额最高。
- 三星电子:在HBM技术方面也具有强大的研发和生产能力。在HBM技术上的进展,包括开发更高密度和更大容量的产品,对提升其在高性能计算和AI领域的竞争力起到关键作用;
- 美光科技:美光因技术路线判断失误在HBM市场份额比较低,在追赶中。虽然相比SK海力士和三星电子较晚进入HBM市场,但通过直接从HBM3E开始着手,并迅速提升技术实力,对现有市场格局构成了挑战,英伟达在H200中使用美光是对其非常大的认可。
CoWoS
TSMC(台积电)的Chip-on-Wafer-on-Substrate(CoWoS)技术将HBM与AI加速器、GPU和CPU集成在一起,可实现:
- 更宽的内存总线:实现海量数据吞吐量
- 卓越的热管理:更好的散热
- 减少延迟:非常适合下一代AI工作负载
与AMD、Intel和Micron等一直在推进内存和封装解决方案的其他领先公司相比,TSMC的CoWoS技术以其卓越的集成能力和热效率而脱颖而出。AMD的3D V-Cache、英特尔的Foveros以及美光的HBM2和HBM3都在突破界限,但台积电处理高密度内存堆栈以及下一代HBM4和低于5nm逻辑集成的能力使其在AI和HPC市场的扩展方面具有独特的优势。