当前位置: 首页 > news >正文

大模型训练过程中KVCache与MLA

基础内容

在Transformer模型中,每个token有qkv三个属性,分别通过神经网络变换得到。1
根据Transformer中注意力公式,每个token的q需要和之前所有的k计算注意力,然后经过Softmax函数后乘以之前所有token的V,得到最终的结果。
也就是说,面对新的token,q是向量,KV是矩阵;q和k的点乘可以看做当前token和之前所有token之间的注意力

-
每个token作为K矩阵中一列和V矩阵中一行
为K计算新列,为V增加新行2
注意的是,只有自注意力层进行KVcache的交互,其他部分不需要(position embedding、Laynorm、Feedforward 不需要)

显存大小计算

以Qwen-72B为例3,模型80层,每层64个头,每个头的维度是128.
那么,一个token对应的qv的数量为2*64*80=10240;如果是半精度存储,每个参数为两个字节;那么为10240*2*128/1024/1024=2.5MB
还需要考虑B和长度大小L;有兴趣可以看3

Example
过程中注意
由于生成第一个token前没有KVcache,所以延迟较高,需要为提示中每一个token计算KV矩阵

可以观察到,GPT不同长度的token收费标准不同;主要原因在于处理/生成文本越多,占用的GPU内存多,收费就比较高

改进优化

MQA

kv共享
kv数量从2*层数*头的数量变为2*层数

GQA

kv数量从2*层数*头的数量变为2*层数*分组数

MLA


根据4deepseek V3 报告。

参考链接


  1. https://www.youtube.com/watch?v=80bIUggRJf4 ↩︎

  2. https://github.com/wdndev/llm_interview_note/blob/main/06.%E6%8E%A8%E7%90%86/llm%E6%8E%A8%E7%90%86%E4%BC%98%E5%8C%96%E6%8A%80%E6%9C%AF/llm%E6%8E%A8%E7%90%86%E4%BC%98%E5%8C%96%E6%8A%80%E6%9C%AF.md ↩︎

  3. https://zhuanlan.zhihu.com/p/16730036197 ↩︎ ↩︎

  4. https://arxiv.org/html/2412.19437v1 ↩︎

http://www.dtcms.com/a/96125.html

相关文章:

  • k近邻算法K-Nearest Neighbors(KNN)
  • 多个git账户团队写作
  • DATA 动态给值处理
  • linux和windows是采用何种机制保存密码的?
  • 构建高可用性西门子Camstar服务守护者:异常监控与自愈实践
  • 计算机二级WPS Office第四套电子表格
  • playwright基础样例demo大全
  • 大模型LLMs框架Langchain之工具Tools
  • 详解Http:在QT中使用Http协议
  • VMware Windows Tools 存在认证绕过漏洞(CVE-2025-22230)
  • B/S阅片项目算法梳理
  • 系统与网络安全------网络应用基础(6)
  • 无人机助力道路智能养护,基于YOLOv5全系列【n/s/m/l/x】参数模型开发构建无人机航拍道路交通场景下水泥路面缺陷智能检测识别系统
  • 如何在WordPress中限制用户登录到一台设备
  • Python小练习系列 Vol.2:斐波那契数列的三种实现方式(从低效到高效)
  • Git项目要改变仓库地址
  • Windows .gitignore文件不生效的情况排查
  • 实现类今日头条主界面:ViewPager与TabLayout深度整合
  • es6的箭头函数与普通函数的区别,箭头函数的this通常指向哪里,箭头函数可以用作构造函数吗?
  • 如何在 vue 渲染百万行数据,vxe-table 渲染百万行数据性能对比,超大量百万级表格渲染
  • mapbox基础,加载popup弹出窗
  • Python+requests实现接口自动化测试框架
  • 【PyTorch】
  • 如何利用AI智能生成PPT提升工作效率
  • SD-WAN海外专线服务商选择指南
  • 泛目录程序——2025年AI多功能站群系统技术演进:无极架构的分布式智能与多模态
  • Vivado HLS 优化指令详解
  • 【Tauri2】005——tauri::command属性与invoke函数
  • 【C++篇】C++入门基础(二)
  • Web3.0合约安全:重入攻击防御方案