HBM CPU Cache / GPU Cache 的关系
1. CPU Cache 和 DRAM 的关系
CPU Cache (L1/L2/L3)
在 CPU 芯片内部,由 SRAM 实现。
延迟极低:L1 ~1ns,L3 ~10ns。
存容量小(几十 KB → 几十 MB)。
作用:作为 CPU ↔ DRAM 之间的高速缓冲。
DRAM (主存)
在主板上,通常是 DDR4/DDR5。
延迟 ~100ns,容量大(几 GB → TB)。
作用:CPU 的主要工作内存。
👉 类比:Cache = 小仓库就在手边,DRAM = 工厂仓库要跑一趟。
2. GPU 的存储层级
GPU Cache (L1/L2 Cache)
和 CPU 类似,位于 GPU 芯片内部。
容量小(KB~MB),但延迟极低(ns)。
每个 SM(Streaming Multiprocessor)有 L1 cache,全芯片共享 L2 cache。
HBM (High Bandwidth Memory)
HBM 不是 Cache,而是 GPU 的主存。
类似 CPU 的 DRAM,只不过带宽更高(几百 GB/s~TB/s),延迟几十 ns。
物理上:通过 宽总线 + TSV (硅通孔) 堆叠在 GPU 封装内。
容量:几十 GB。
👉 类比:
GPU Cache = 手边小抽屉(ns级)
HBM = 楼下大仓库(几十 ns + 超大带宽)
3. HBM vs CPU Cache 的区别
层级 | 位置 | 本质 | 延迟 | 容量 |
---|---|---|---|---|
CPU Cache | CPU 内部 | SRAM 缓存 | 1–10 ns | KB–MB |
CPU DRAM (DDR) | 主板内存条 | DRAM 主存 | ~100 ns | GB–TB |
GPU Cache | GPU 内部 | SRAM 缓存 | ns 级 | KB–MB |
GPU HBM | GPU 封装内 | DRAM 主存 | ~30–100 ns | GB–几十 GB |
4. 总结
HBM 是 GPU 的主存,不是 Cache。
GPU Cache 在芯片内部,延迟更低,但容量小。
HBM 相当于 CPU 的 DRAM(主存),只是速度更快、带宽更大。