当前位置: 首页 > news >正文

DUOATTENTION:结合检索与流式注意力机制的高效长上下文大语言模型推理方法

摘要

部署长上下文的大语言模型(LLMs)是必要的,但也带来了显著的计算与内存挑战。将所有注意力头的 Key 和 Value(KV)状态进行缓存会占用大量内存。现有的 KV 缓存裁剪方法要么破坏了 LLM 的长上下文能力,要么仅带来有限的效率提升。本文发现,只有部分注意力头(即“检索头”)在处理长上下文时至关重要,需要对所有 token 执行完整注意力;而其余的注意力头主要关注最近的 token 和注意力汇聚点(attention sinks),我们称之为“流式头”,它们并不需要完整注意力机制。

基于这一洞察,我们提出 DuoAttention 框架:该框架仅对检索头使用完整的 KV 缓存,而对流式头则采用轻量级、固定长度的 KV 缓存,从而在不影响模型长上下文能力的前提下,降低 LLM 的解码和预填充时的内存占用与延迟。DuoAttention 借助轻量级、基于优化的算法,并利用合成数据准确识别检索头。我们的方法在保持精度几乎无损的前提下,将长上下文推理的内存使用量最多降低至原来的 2.55×(用于 MHA 模型)和 1.67×(用于 GQA 模型),同时解码速度最多提升至 2.18× 和 1.50×,预填充速度最多提升至 1.73× 和 1.63×。值得注意的是,结合量化技术后,DuoAttention 使得 Llama-3-8B 在单个 A100 GPU 上支持 330 万 token 的上下文长度推理成为可能。代码地址详见文末链接。

1 引言

大型语言模型(LLMs)(Touvron et al., 2023a;b;OpenAI, 2023;Black et al., 2022)位于当前人工智

http://www.dtcms.com/a/573363.html

相关文章:

  • SAMWISE:为文本驱动的视频分割注入SAM2的智慧
  • Linux 进程状态:内核角度与应用层角度
  • A与非A、综合分析技巧
  • java之jvm堆内存占用问题
  • 江门网站制作设计网站地址栏图标文字
  • 做游戏网站多少钱网站做好了怎么上线
  • taro UI 的icon和自定义iconfont的icon冲突
  • 【开发】Git处理分支的指令
  • Linux 进程的写时拷贝(Copy-On-Write, COW)详解
  • git将克隆的目录作为普通文件夹上传
  • 集群网络技术1:RDMA和相关协议
  • SesameOp 恶意软件滥用 OpenAI Assistants API 实现与 C2 服务器的隐蔽通信
  • 网站开发服务器怎么选wordpress文章404
  • 安装 awscli
  • AWS + 发财CMS:高效采集站的新形态
  • 360提交网站wordpress购物商城代码
  • 在 DGX Spark 上使用 Ollama 打开 WebUI
  • 中小型网站服务器搭建方案西安做网站公司
  • Linux 常用命令详解与使用规则
  • ELK日志分析组件介绍+部署详解
  • 谢岗网站仿做肥东建设网站
  • 张永伟营销:中国市场GEO发展趋势专业报告:SEO与AI搜索优化视角
  • Ubuntu 服务器的无法使用WinSCP低版本连接登录
  • Ubuntu24.04 不能使用todesk 解决办法
  • 【LeetCode】100. 相同的树
  • 51单片机数码管显示函数分享(8051汇编)
  • 国外互联网科技网站微信引流用什么软件好用
  • 静态交叉编译rust程序
  • 1.2.STM32简介——全程手敲板书
  • 2.2.6【2020统考真题】