当前位置: 首页 > news >正文

GPU架构对大模型推理部署到底有什么影响?

一、问题

实际生产中我们在阿里云租用GPU云服务器,面对那么多服务器应该怎么选择相关物理配置?

二、 GPU

2.1 GPU是什么

GPU的英文全称Graphics Processing Unit,图形处理单元。

说直白一点:GPU是一款专门的图形处理芯片,做图形渲染、数值分析、金融分析、密码破解,以及其他数学计算与几何运算的。GPU可以在PC、工作站、游戏主机、手机、平板等多种智能终端设备上运行。

GPU和显卡的关系,就像是CPU和主板的关系。前者是显卡的心脏,后者是主板的心脏。有些小伙伴会把GPU和显卡当成一个东西,其实还有些差别的,显卡不仅包括GPU,还有一些显存、VRM稳压模块、MRAM芯片、总线、风扇、外围设备接口等等。

2.2 GPU和CPU有什么区别

CPU和GPU都是运算的处理器,在架构组成上都包括3个部分:运算单元ALU、控制单元Control和缓存单元Cache。

但是,三者的组成比例却相差很大。

在CPU中缓存单元大概占50%,控制单元25%,运算单元25%;

在GPU中缓存单元大概占5%,控制单元5%,运算单元90%。

三、GPU与CPU的核心区别​
​特性​​CPU​​GPU​
核心数量通常4-128核心数千至上万计算核心
核心设计复杂指令集/高时钟频率精简指令集/高度并行化
内存带宽50-200 GB/s600-3000 GB/s (如H100)
适用场景串行逻辑/控制流大规模并行计算
典型负载操作系统/通用计算矩阵运算/张量处理

​关键差异​​:GPU通过SIMT架构(单指令多线程)实现海量线程并行,其显存带宽可达CPU的15倍以上,对百亿参数模型的权重加载速度具有决定性影响。

四、GPU内部架构深度解析​

以NVIDIA Ampere架构为例:

┌───────────────────────┐
│  GPU Architecture     │
├───────────┬───────────┤
│ Streaming Multiprocessor (SM) │
│ ├─ CUDA Cores (64-128/SM)     │
│ ├─ Tensor Cores (4-8/SM)      │ → 混合精度矩阵加速
│ ├─ Shared Memory (192KB/SM)   │ → 线程块通信
│ └─ L1 Cache/Register File     │
├───────────┼───────────┤
│ Memory Hierarchy              │
│ ├─ HBM2/HBM3 (显存)           │ → 80%能耗源于数据搬运
│ ├─ L2 Cache (40-80MB)         │ → 降低全局内存访问延迟
│ └─ GDDR6X/HBM2e接口           │
└───────────┴───────────┘

​核心组件作用​​:

  • ​Tensor Core​​:专用硬件加速FP16/BF16/INT8矩阵乘加运算,使Transformer层的计算速度提升6-12倍
  • ​共享内存​​:实现线程块内高速数据共享,优化Attention计算中的KV缓存访问
  • ​异步拷贝引擎​​:计算与数据加载并行,隐藏内存延迟

​五、GPU架构演进关键里程碑​
​架构世代​推出年份技术突破推理性能提升
Fermi2010首个支持ECC显存基础架构
Kepler2012动态并行化2.1x
Maxwell2014能效比优化3.5x
​Pascal​2016首次支持FP165.8x → 大模型起点
​Volta​2017首代Tensor Core/ NVLink12x → Transformer时代
​Turing​2018INT8/稀疏化支持18x
​Ampere​2020稀疏矩阵加速/ MIG技术30x → GPT-3部署主力
​Hopper​2022FP8精度/ Transformer引擎50x → 千亿级模型

​关键转折点​​:Volta架构引入的Tensor Core使Transformer层计算效率产生质的飞跃,而Ampere的稀疏化特性使LLM推理吞吐量提升3倍。


六、架构特性对推理部署的具体影响​
  1. ​计算能力维度​

    • ​Tensor Core代数​​:Hopper的第四代TC支持FP8,使175B模型推理速度提升80%
    • ​SM数量倍增​​:A100 (108SM) vs V100 (80SM) → 同batch size延迟降低40%
  2. ​内存子系统​

    # 带宽瓶颈示例:GPT-3 175B模型 model_size = 175e9 * 2Bytes (FP16) # 350GB显存需求 A100_bandwidth = 2TB/s → 理论加载时间 = 350GB / 2TB/s = 0.175s V100_bandwidth = 900GB/s → 0.389s (相差2.2倍)

    • HBM3显存(如H100的3.2TB/s)可将千亿模型加载时间压缩至秒级
  3. ​互连技术​

    • ​NVLink 3.0​​:600GB/s双向带宽,使多卡推理通信开销从15%降至3%
    • ​PCIe 5.0 vs 4.0​​:带宽翻倍(64GB/s → 128GB/s),减少CPU-GPU数据传输时延
  4. ​专用加速单元​

    • Hopper的Transformer引擎:自动切换FP8/FP16精度,使Attention计算能效比提升30%
    • 结构化稀疏支持:Ampere架构下Pruning模型的峰值算力翻倍

无 Tensor Core​​”指的是GPU硬件中​​缺失专门用于加速矩阵运算和低精度计算的专用核心​​。以下是详细解释:


七、Tensor Core 的核心功能

Tensor Core 是 NVIDIA 从 ​​Volta 架构(2017)​​ 开始引入的专用硬件单元,主要解决两种计算需求:

  1. ​混合精度计算​

    • 支持 FP16(半精度)/BF16(脑浮点)/FP8(8位浮点)等高效率运算
    • 相比传统CUDA核心,相同功耗下提供​​4-12倍吞吐量​
  2. ​张量运算加速​

    • 硬件级优化矩阵乘法(GEMM):D=A×B+C
    • 单周期完成 4x4x4 矩阵运算(传统CUDA核心需数十周期)

八、有无 Tensor Core 的差异对比

​特性​有 Tensor Core (如V100/A100)无 Tensor Core (如P100)
​FP16 训练速度​125 TFLOPS(V100)→ 312 TFLOPS(A100)21.2 TFLOPS(仅软件模拟)
​INT8 推理性能​224 TOPS(A10)不支持(需FP32模拟,效率低10倍)
​矩阵乘法加速​专用硬件电路,延迟降低80%依赖CUDA核心串行处理
​功耗效率​1 TOPS/W(T4)0.1 TOPS/W(P100)
​典型代表显卡​T4/V100/A100/H100P100/P40/M40

📌 ​​示例场景​​:
在BERT模型推理中:

  • T4(有Tensor Core): 可实时处理 1000 QPS
  • P100(无Tensor Core): 仅能处理 80 QPS

九、“无Tensor Core”对实际应用的影响

1. ​​深度学习训练​
  • ​训练时间翻倍​​:ResNet-50 训练从 1小时(V100)→ 2.5小时(P100)
  • ​无法支持大模型​​:LLaMA-7B 需至少 V100(带Tensor Core)
2. ​​AI推理​
  • ​低精度无效化​​:INT8/FP8 加速完全不可用
  • ​高延迟​​:实时光追/自动驾驶场景无法满足
3. ​​科学计算​
  • ​浪费FP64潜力​​:P100虽有FP64优势,但缺乏张量加速
  • ​混合计算受限​​:CFD仿真中的AI耦合计算效率低下

十、技术演进路线

架构年份代表显卡Tensor Core 能力
2016 PascalP100❌ 完全缺失
2017 VoltaV100✅ 初代(仅FP16)
2020 AmpereA100✅ 第二代(支持TF32/FP8)
2022 HopperH100✅ 第四代(动态编程支持)

十一、总结

当显卡标注“​​无 Tensor Core​​”时,意味着:

  1. ​硬件层​​:缺少AI计算专用加速单元
  2. ​软件层​​:无法启用 torch.compile()/TF-TRT 等优化
  3. ​应用层​​:
    • ❌ 不能运行 Stable Diffusion XL
    • ❌ 无法部署 vLLM 推理服务
    • ❌ 大模型训练效率极低

我们选择GPU的时候需要考虑这个GPU架构是否有Tensor Core,Tensor Core对于模型的推理部署很重要,很多主流的推理框架都不支持老的GPU架构 

十二、参考文章

一文搞懂 GPU 的概念、工作原理,以及与 CPU 的区别 - 知乎

相关文章:

  • 86壳温湿度传感器:高温下工业生产的安全防线
  • 【C#】C++的回调函数和C#的事件委托在某些方面有相似之处
  • 土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测技术应用
  • spearman相关性 - 斯皮尔曼秩相关系数
  • 黑马python(二)
  • 题单:归并排序
  • Alerting中配置多个OpsGenie时,如何匹配同一个条件匹配多个opsgenie的contact points
  • 以太网协议(Ethernet)深入解析:从底层原理到实战应用
  • 智能文档结构化技术的应用,重塑合同管理模式
  • 期末考试复习总结-《ArkTS基础语法(上)》
  • G-Star公益行 | 公益组织入门开源技术,六月北京点燃改变的星火
  • Docker常用命令笔记
  • 【大模型】 使用llama.cpp 进行模型转换和量化
  • 魔兽世界正式服插件与宏-敏锐盗贼实用宏探索(3)-起手奥义【袭】之突如其来
  • 使用 origin -> master 强制覆盖本地 master
  • Python Day47 学习(日志Day16-17复习)
  • Win11无法安装Unity5.5.0f3怎么解决?虚拟机中如何配置?Win7怎么安装最新版VMware Tools?来这里教你完美解决!
  • 函数02 day11
  • 模型参数、模型存储精度、参数与显存
  • python46
  • ppt做的模板下载网站有哪些/手机助手
  • 咸阳做网站价格/浙江seo
  • 广西备案工信部网站/域名收录
  • kuler网站/地推放单平台
  • 网站备案名称的影响/关键词排名怎么做上首页
  • 网站页面示意图怎么做/百度竞价排名广告定价