当前位置: 首页 > news >正文

LLM优化技术——Paged Attention

在Transformer decoding的过程中,需要存储过去tokens的所有Keys和Values,以完成self attention的计算,称之为KV cache。

(1)KV cache的大小

可以计算存储KV cache所需的内存大小:

batch * layers * kv-heads * n_emd * length * 2(K & V) * bytes

对于Llama-2-70B(MHA),KV cache需要的内存大小为:

batch * 80 * 64 * 128 * N * 2 * 2(FP16) = 2.5 MB * BS * N

(2)KV cache中存在内存浪费

  • 内部碎片化 (Internal Fragmentation): 由于输出长度未知而过度分配内存。

  • 预留 (Reservation): 当前步骤未使用,但未来步骤需要的内存。

  • 外部碎片化 (External Fragmentation): 由于不同请求序列长度不同导致的内存空隙。

(3)Paged Attention

在不连续的内存空间中存储连续的keys和values

相关文章:

  • VC++: identifer “M_PI“ is undefined
  • C++11新特性lambda的使用详解
  • 2025-05-31 Python深度学习10——模型训练流程
  • 【Dv3Admin】工具请求配置文件解析
  • 计算晶体结构和电子能带的软件
  • Linux命令之ausearch命令
  • 【HW系列】—日志介绍
  • Linux531rsync定时同步 再回忆
  • 一文认识并学会c++模板初阶
  • 随机响应噪声-极大似然估计
  • 每日算法-250531
  • resubmit v1.2.0 新特性支持类级别防止重复提交
  • 深入剖析Java类加载机制:双亲委派模型的突破与实战应用
  • tmux基本原理
  • Mybatis:灵活掌控SQL艺术
  • 探索DeepSeek提示词:关键策略与实用场景
  • ServletComponentScan 注解的作用
  • 某乎x-zse-96 破解(补环境版本)
  • win32相关(临界区)
  • 使用curlconverter网站快速生成requests请求包
  • 日照网厂/百度排名优化软件
  • 长沙网站开发/站长收录平台
  • 龙口有没有做网站的/百度网站推广申请
  • 建筑工程网络进度图/seo诊断a5
  • 西安做网站公司/外包seo服务收费标准
  • flash网站建设方案/东莞seo外包公司哪家好