当前位置：首页 > news >正文

LLM优化技术——Paged Attention

news 2025/7/22 18:16:46

在Transformer decoding的过程中，需要存储过去tokens的所有Keys和Values，以完成self attention的计算，称之为KV cache。

（1）KV cache的大小

可以计算存储KV cache所需的内存大小：

batch * layers * kv-heads * n_emd * length * 2(K & V) * bytes

对于Llama-2-70B（MHA），KV cache需要的内存大小为：

batch * 80 * 64 * 128 * N * 2 * 2（FP16） = 2.5 MB * BS * N

（2）KV cache中存在内存浪费

（3）Paged Attention

在不连续的内存空间中存储连续的keys和values

VC++: identifer “M_PI“ is undefined

C++11新特性lambda的使用详解

【Dv3Admin】工具请求配置文件解析

计算晶体结构和电子能带的软件

Linux命令之ausearch命令

【HW系列】—日志介绍

Linux531rsync定时同步再回忆

一文认识并学会c++模板初阶

随机响应噪声-极大似然估计

每日算法-250531

tmux基本原理

Mybatis：灵活掌控SQL艺术

ServletComponentScan 注解的作用

某乎x-zse-96 破解（补环境版本）

win32相关（临界区）

day28 python训练营类的定义与方法

docker安装和镜像源替换

Python打卡训练营Day41

LCS 问题解释

ROS2与Unitree机器人集成指南

【Java基础05】面向对象01