当前位置: 首页 > news >正文

GEAR:一种高效的 KV Cache 压缩方法,用于几乎无损的大语言模型生成式推理

摘要

Key-value(KV)缓存已成为提升大语言模型(LLM)推理生成速度的事实标准技术。然而,随着序列长度的增加,缓存需求的不断增长使得LLM推理演变为一个受限于内存带宽的问题,显著限制了系统吞吐量。现有方法通常依赖于丢弃不重要的token或对条目进行分组量化。然而,这些方法在表示压缩矩阵时常常引入较大的近似误差。自回归解码过程进一步在每个步骤中累积误差,导致模型生成结果的严重偏离与性能下降。

为了解决这一问题,我们提出了GEAR,一个高效的误差降低框架,它在量化方案中引入两个误差缓解模块,在高压缩率下实现了近乎无损的性能。GEAR首先将幅值相近的大部分条目以超低精度进行量化,然后使用一个低秩矩阵来逼近量化误差,同时引入一个稀疏矩阵来修正由离群条目产生的个别误差。通过巧妙地整合这三种技术,GEAR能够充分释放它们的协同潜力。

实验表明,GEAR在2-bit压缩率下的准确率与FP16缓存几乎一致,在精度方面比当前最优方法(SOTA)最多提升了 24.42%。此外,与采用FP16 KV缓存的LLM推理相比,GEAR可将峰值内存消耗降低 最多2.39倍,带来 2.1×至5.07× 的吞吐率提升。我们的代码已在以下地址开源:https://github.com/HaoKang-Timmy/GEAR

1 引言

自回归的大语言模型(LLMs)(Brown et al., 2020b;Zha

http://www.dtcms.com/a/593501.html

相关文章:

  • 西樵网站建设公司wordpress 宠物
  • Bootstrap5 表格深度解析
  • abuild 命令行工程编译
  • python自动化005:app自动化入门环境搭建
  • 云南品牌网站开发番禺建设网站开发
  • HarmonyOS:线性布局(Row/Column)
  • 鸿蒙Next学习解析之针对PC2in1设备的窗口管理新增支持主窗的尺寸记忆功能
  • 【大数据技术02】统计学和模型
  • Python数据挖掘之回归
  • 数据管理技术发展的3个阶段
  • 进网站后台显示空白购买东西网站怎么做
  • 做网站的公司都有哪些模板制作方法
  • .NET线程池ThreadPool.QueueUserWorkItem
  • Python爬虫进阶:面向对象设计与反爬策略实战
  • 河北省建设厅网站站长万网主体新增网站备案需要是滴么
  • windows 11 系统 nvm安装详细教程 (踩坑分享)
  • VMMap 学习笔记(8.3):VMMap 窗口全解析——内存类型、指标含义、颜色视图怎么读
  • 西安网站建设开发公司怎么样1688网
  • 南京做网站品牌2018 84号建设厅网站
  • 整体设计 全面梳理复盘 之29 Transformer 九宫格三层架构 Designer 全部功能定稿(初稿)
  • 再看软考与职称及软考的价值
  • pycharm连接远程服务器
  • libstdc++.so.6 version `GLIBCXX_3.4.29‘ not found
  • STM32 ADC底层原理与寄存器配置详解
  • 互联科技行业网站wordpress+纯净主题
  • 短剧广告联盟APP盈利模式分析:B 端合作商如何通过系统实现收益增长
  • 「腾讯云NoSQL」技术之向量数据库篇:自研分布式向量数据库,实现毫秒级时序一致备份的挑战和实践
  • seo站长助手网站设计师加油站
  • 基于Springboot的游戏后台管理系统a803t(程序、源码、数据库、调试部署方案及开发环境)系统界面展示及获取方式置于文档末尾,可供参考。
  • springboot在线课堂教学辅助系统07741