当前位置：首页 > news >正文

GEAR：一种高效的 KV Cache 压缩方法，用于几乎无损的大语言模型生成式推理

news 2025/11/11 9:47:20

摘要

Key-value（KV）缓存已成为提升大语言模型（LLM）推理生成速度的事实标准技术。然而，随着序列长度的增加，缓存需求的不断增长使得LLM推理演变为一个受限于内存带宽的问题，显著限制了系统吞吐量。现有方法通常依赖于丢弃不重要的token或对条目进行分组量化。然而，这些方法在表示压缩矩阵时常常引入较大的近似误差。自回归解码过程进一步在每个步骤中累积误差，导致模型生成结果的严重偏离与性能下降。

为了解决这一问题，我们提出了GEAR，一个高效的误差降低框架，它在量化方案中引入两个误差缓解模块，在高压缩率下实现了近乎无损的性能。GEAR首先将幅值相近的大部分条目以超低精度进行量化，然后使用一个低秩矩阵来逼近量化误差，同时引入一个稀疏矩阵来修正由离群条目产生的个别误差。通过巧妙地整合这三种技术，GEAR能够充分释放它们的协同潜力。

实验表明，GEAR在2-bit压缩率下的准确率与FP16缓存几乎一致，在精度方面比当前最优方法（SOTA）最多提升了 24.42%。此外，与采用FP16 KV缓存的LLM推理相比，GEAR可将峰值内存消耗降低最多2.39倍，带来 2.1×至5.07× 的吞吐率提升。我们的代码已在以下地址开源：https://github.com/HaoKang-Timmy/GEAR

1 引言

自回归的大语言模型（LLMs）（Brown et al., 2020b；Zha

http://www.dtcms.com/a/593501.html

相关文章：

西樵网站建设公司wordpress 宠物

Bootstrap5 表格深度解析

abuild 命令行工程编译

python自动化005：app自动化入门环境搭建

云南品牌网站开发番禺建设网站开发

HarmonyOS:线性布局（Row/Column）

鸿蒙Next学习解析之针对PC2in1设备的窗口管理新增支持主窗的尺寸记忆功能

【大数据技术02】统计学和模型

Python数据挖掘之回归

数据管理技术发展的3个阶段

进网站后台显示空白购买东西网站怎么做

做网站的公司都有哪些模板制作方法

.NET线程池ThreadPool.QueueUserWorkItem

Python爬虫进阶：面向对象设计与反爬策略实战

河北省建设厅网站站长万网主体新增网站备案需要是滴么

windows 11 系统 nvm安装详细教程（踩坑分享）

VMMap 学习笔记（8.3）：VMMap 窗口全解析——内存类型、指标含义、颜色视图怎么读

西安网站建设开发公司怎么样1688网

南京做网站品牌2018 84号建设厅网站

整体设计全面梳理复盘之29 Transformer 九宫格三层架构 Designer 全部功能定稿（初稿）

再看软考与职称及软考的价值

pycharm连接远程服务器

libstdc++.so.6 version `GLIBCXX_3.4.29‘ not found

STM32 ADC底层原理与寄存器配置详解

互联科技行业网站wordpress+纯净主题

短剧广告联盟APP盈利模式分析：B 端合作商如何通过系统实现收益增长

「腾讯云NoSQL」技术之向量数据库篇：自研分布式向量数据库，实现毫秒级时序一致备份的挑战和实践

seo站长助手网站设计师加油站

基于Springboot的游戏后台管理系统a803t（程序、源码、数据库、调试部署方案及开发环境）系统界面展示及获取方式置于文档末尾，可供参考。

springboot在线课堂教学辅助系统07741