当前位置：首页 > news >正文

[人工智能-综述-23]：AI的硬件层以及组成架构、GPU内部以及组成架构

news 2025/10/7 6:40:02

AI的硬件层是支撑人工智能（尤其是深度学习）计算的基础，其核心目标是高效执行大规模并行计算任务。以下是关于 AI硬件层的整体架构 以及 GPU内部结构与组成 的详细解析。

一、AI硬件层整体架构

AI系统的硬件层级可以分为以下几个层次：

1. 系统级架构（System Level）

层级	组件	AI功能
CPU（中央处理器）	控制逻辑、数据调度	负责系统控制流、I/O管理、小规模串行计算
GPU / AI加速器（如TPU、NPU、DCU等）	并行计算核心	执行矩阵运算、张量操作等密集型AI冰并行计算
内存系统	DRAM（主存）、HBM（高带宽内存）	存储模型参数和中间结果
存储设备	SSD/HDD	模型权重、训练数据持久化
高速互连总线	PCIe、NVLink、CXL	实现CPU与GPU之间高速通信
网络接口	InfiniBand / Ethernet	多节点分布式训练时的数据交换

✅ 典型AI服务器配置：
2× Intel Xeon CPU
8× NVIDIA A100 GPU（通过NVLink互联）
1TB DDR4 + 32GB HBM2e/GDDR6 per GPU
4× 100Gbps InfiniBand网卡用于集群通信

2. AI专用芯片类型对比

类型	特点	应用场景
GPU（图形处理器）	高度并行，通用性强， CUDA生态成熟	训练/推理主流选择（如NVIDIA A100/H100）
TPU（张量处理单元，Google）	定制ASIC，专为TensorFlow优化	大规模训练（TPU v5e/v5p）
NPU（神经网络处理单元）	嵌入式AI芯片，低功耗	边缘设备（手机、IoT）
FPGA（现场可编程门阵列）	可重构逻辑，灵活性高	特定算法加速或低延迟推理
ASIC（专用集成电路）	性能最高，成本高，不可变	特定模型定制（如华为昇腾、寒武纪）

二、GPU内部架构详解（以NVIDIA为例）

现代GPU（如Ampere、Hopper架构）是AI训练的核心引擎。下面以 NVIDIA A100 GPU 为例解析其内部组成。

1. 整体架构图（简化）

+-----------------------------+
|           GPU Die           |
|                             |
|  +--------+   +--------+    |
|  |  GPC   |...|  GPC   |    | ← Graphics Processing Clusters
|  +--------+   +--------+    |
|     |            |          |
|  +--+--+      +--+--+       |
|  | TPC | ...  | TPC |       | ← Texture/Streaming Multiprocessors
|  +-----+      +-----+       |
|     |            |          |
|  +-----+      +-----+       |
|  | SM  | ...  | SM  |       | ← Streaming Multiprocessor (核心计算单元)
|  +-----+      +-----+       |
|                             |
|  L1 Cache, L2 Cache         |
|  HBM Memory Controller ×6   |
|  NVLink Interface           |
+-----------------------------+

2. 核心模块详解

（1）SM（Streaming Multiprocessor）—— 流式多处理器

这是GPU中最基本的并行计算单元，每个SM包含多个CUDA核心和其他功能单元。

SM内部组成（Ampere架构为例）：

单元	数量/说明	功能
FP32 CUDA Cores	64个/SM	支持单精度浮点运算（常用在AI中）
INT32 Cores	64个/SM	整数运算，配合FP32提升吞吐
Tensor Cores	4个/SM（支持FP16/BF16/TF32/FP64）	加速矩阵乘法（如GEMM），关键用于DNN
Warp Scheduler	2~4个	调度32线程的warp执行
Dispatch Units	2~4路	分发指令到不同执行单元
Shared Memory / L1 Cache	128KB 可配置	高速片上内存，供线程块共享使用
Register File	~65K 32位寄存器	每个线程私有寄存器

📌 示例：NVIDIA A100 有 108 个 SM，每个 SM 包含 64 个 FP32 核心 → 总共约 6912 个 FP32 核心

（2）GPC（Graphics Processing Cluster）

是一组SM的集合（通常一个GPC含6~8个TPC）
包括光栅化、图元处理等图形相关模块（在AI中作用较小）
在AI计算中主要用于组织SM资源

（3）Memory Hierarchy（内存层次结构）

层级	类型	带宽	容量	特点
Registers	寄存器文件	极快	每线程几十KB	最快速访问
Shared Memory	片上SRAM	~10 TB/s	128–256 KB / SM	线程块内共享，程序员可控
L1 Cache	缓存	~10 TB/s	128 KB / SM	自动缓存全局内存访问
L2 Cache	统一缓存	~2 TB/s	40 MB（A100）	所有SM共享，减少显存压力
HBM2e / HBM3	显存	2 TB/s（A100）<br>3.35 TB/s（H100）	40–80 GB	高带宽堆叠内存，连接GPU核心

⚠️ 显存带宽是AI性能瓶颈之一，因此采用HBM技术（垂直堆叠DRAM）来提高带宽。

（4）Tensor Cores（张量核心）

专门用于加速矩阵乘加运算（Matrix Multiply-Accumulate, MMA）
支持混合精度计算（FP16, BF16, TF32, FP64）
例如：一个Tensor Core可在一条指令中完成 D = A * B + C（4x4矩阵）

💡 使用Tensor Cores后，A100的FP16算力可达 312 TFLOPS（远高于普通CUDA核心的 ~19 TFLOPS）

（5）NVLink 与 PCIe 接口

接口	带宽	功能
NVLink 3.0	600 GB/s（双向）	GPU间直连，用于多卡协同训练
PCIe 4.0 x16	32 GB/s	连接CPU与GPU，较慢，常成为瓶颈

🔗 多GPU系统中，NVLink形成全连接拓扑（如8卡A100服务器），极大提升AllReduce通信效率。

三、AI硬件发展趋势

方向	描述
更大规模集成	Chiplet设计（如GH100）、3D封装提升密度
更高带宽内存	HBM3 → HBM3E → HBM4，带宽突破4TB/s
专用AI指令集	支持稀疏计算、量化（INT4/INT8）、MoE加速
Chip-to-Chip Interconnect	NVLink Switch、CXL协议实现超大规模扩展
异构计算平台	CPU+GPU+NPU+FPGA融合，软硬协同优化

四、典型AI硬件平台举例

平台	芯片	算力（FP16）	典型用途
NVIDIA DGX A100	8× A100 GPU	5 PFLOPS	大模型训练
Google TPU v5p	TPUv5芯片	~4 PFLOPS	Bard、Gemini训练
华为 Atlas 800	昇腾910B	256 TOPS（INT8）	国产替代方案
Apple M系列芯片	内置NPU	~30 TOPS	终端侧AI推理

五、总结：AI硬件的关键要素

要素	重要性	说明
并行计算能力	⭐⭐⭐⭐⭐	GPU拥有数千核心，适合SIMT模式
内存带宽	⭐⭐⭐⭐☆	HBM决定能否喂饱计算单元
互连速度	⭐⭐⭐⭐☆	NVLink/CXL影响多卡扩展性
能效比	⭐⭐⭐☆☆	数据中心关注每瓦特性能
软件栈支持	⭐⭐⭐⭐⭐	CUDA、cuDNN、PyTorch兼容性至关重要