当前位置：首页 > news >正文

用分页干掉显存浪费！聊聊VLLM的PagedAttention

news 2025/9/11 2:48:10

不知道你在部署模型的时候，有没有经历过这样的抓狂时刻——跑大模型时显卡显存明明没有占满，程序却报错OOM（内存不足）？表面看是显存不足，背后其实是KVCache碎片化和重复存储这个"隐形刺客"在作祟！最近很火的开源的VLLM框架祭出了一个酷似虚拟内存的"换家战术"，直接把KVCache的显存利用率提升2-3倍！今天就聊聊这个核心技术PagedAttention。

一、显存都去哪儿了？

1.1 动态token引发的显存碎片危机

在传统显存管理方案中，动态变化的token生成需求如同在沙地上反复挖坑填埋的施工队。每个推理请求根据输出长度实时申请显存，完成处理后立即释放，这种模式会产生三类致命缺陷：

外部碎片化：释放后的显存块因尺寸各异无法被新请求复用，如同散落的拼图碎片难以重组
内部空间浪费：出于内存对齐要求，实际分配的显存块往往比需求大30%-50%，形成隐形消耗
生命周期错配：长周期基础服务与短周期推理请求的内存区域相互穿插，形成瑞士奶酪般的空洞结构

（术语注释：此处"token"指AI模型处理的最小文本单元；"显存"即显卡专用内存；"内存对齐"是硬件要求的内存地址分配规则；"瑞士奶酪"比喻内存中的空洞结构）

1.2 Beam Search的显存倍增陷阱

生成式任务中的多路径搜索算法犹如复印店里的文件重复打印。以常见的4路径（beam_size=4）配置为例：

冗余存储灾难：每个候选路径独立保存完整的上下文记忆（KVCache），导致相同数据被复制存储4份
几何级数消耗：序列长度每增加100token，显存需求就膨胀800MB（假设单路径占200MB）
硬件效率惩罚：重复数据占据70%以上内存带宽，使GPU计算核心处于"饥饿"状态

（术语注释："Beam Search"是AI生成文本的多候选路径搜索算法；"KVCache"指Transformer模型存储的Key/Value向量缓存；"内存带宽"是硬件每秒传输数据量；"计算核心"即GPU处理器单元）

1.3 复合效应：显存管理的死亡螺旋

当动态分配与路径搜索相遇，会引发系统级的恶性循环：

动态请求 → 产生碎片 → 触发保守分配策略 → 预留冗余空间 → 
可用显存减少 → 加剧碎片化 → 被迫提前终止请求 → ...

某金融风控系统的真实案例印证了这种危机：

使用传统方案时，单卡日均服务能力从1800次暴跌至400次
显存碎片积累速度达每小时3.2%
服务8小时后必须硬重启，造成每分钟$1500的经济损失

（术语注释："保守分配策略"指预分配额外内存的防御性编程；"硬重启"是完全关闭系统再启动的操作；"服务能力"指单张显卡处理的请求数量）

技术概念全景解析

显存碎片：如同被切割成不规则形状的拼图，虽然总空间足够，但无法组成所需的大块连续空间
KVCache机制：Transformer模型存储历史信息的"记忆抽屉"，每个抽屉(key/value向量)都需要独立空间
Beam Search：AI同时探索多条回答路径的"平行宇宙"策略，每个宇宙都需要独立资源
内存带宽：显存与计算核心之间的"高速公路"，重复数据如同堵车的货车降低通行效率
缓存命中率：衡量GPU快速缓存有效性的指标，如同仓库取货时从货架(缓存)而非地下室(显存)拿货的概率

二、Attention迎来分页革命

2.1 来自操作系统的跨维启示

VLLM的突破性设计犹如为GPU显存装上了虚拟内存管理系统，其核心创新源自计算机体系结构的经典智慧：

物理块化设计：将显存划分为16个token容量的标准存储单元（类比内存页帧）
逻辑地址空间：构建连续虚拟块序列，通过页表映射到离散物理块（类似MMU单元）
按需装载机制：仅在Attention计算时动态组装物理块形成完整KVCache

2.2 三重革命性提升

该架构带来的变革如同为显存管理装上涡轮增压引擎：

碎片终结者：固定块尺寸设计完全消除外部碎片，实测碎片率从37%降至0.8%
共享新范式：beam search路径共享公共前缀块，显存消耗与路径数量解耦
零拷贝革命：逻辑块到物理块的映射仅修改元数据，避免实际数据搬运

2.3 共享经济的显存实践

在多候选答案生成场景中，该设计展现出精妙的空间复用能力：

公共前缀物理块被所有候选路径共享（类似Git的blob对象复用）
分歧点后的独立块按需分配维护路径特异性
动态页表更新确保计算时自动组装正确上下文

以生成3个候选答案为例：

传统方案：3份完整KVCache复制 → 显存占用3×N
VLLM方案：1份公共前缀 + 3份差异路径 → 显存降至N+Δ
实测效果：当序列长度达1024时，显存需求减少68%，带宽利用率提升3.2倍

这项创新使得A100显卡的并发处理能力从32请求提升至91请求，让"显存足够却无法使用"的时代成为历史。
在Attention计算时，系统根据逻辑页表动态拼装出连续的KVCache。这种方法不仅消除了显存碎片，还能让不同候选答案共享公共前缀的物理块。举个栗子🌰：当生成3个候选回答时，它们的公共前缀只需存储1份物理块，显存占用瞬间降为原来的1/3！