当前位置: 首页 > news >正文

Kimi发布新一代注意力架构!线性注意力实现75% KV缓存减少、6倍解码速度提升

当前,主流大模型在处理长文本时存在两大根本性效率问题。

其一是二次方时间复杂度,注意力分数的计算与序列长度的平方成正比,当文本长度大幅增加时,计算量将呈指数级增长。

其二是线性增长的KV缓存,在自回归生成过程中,模型需要缓存过去所有token的键和值,对于百万级别的长文本,KV缓存会消耗大量显存,限制了模型的吞吐量和并发处理能力。

线性注意力通过数学变换将计算复杂度从二次方降低到线性,但这种效率提升往往伴随着模型表达能力的牺牲。

尽管近年来线性注意力研究取得进展,但纯粹的线性结构由于有限的状态容量,在需要精确检索长序列中特定信息的任务上仍然面临理论挑战。

因此,当前LLMs在处理长序列任务时常常面临计算效率和性能瓶颈。

而今天,Kimi最新开源的注意力架构——Kimi Linear则有望解决这一难题。

图片

Kimi Linear的架构创新

Kimi Linear采用了一种精巧的31混合层级结构,每三个Kimi Delta Attention线性注意力层之后,插入一个全注意力层。

KDA层作为模型的主体,负责处理大部分的token间交互,保证模型在处理长文本时的高效率。MLA层则作为周期性的全局信息枢纽,捕捉序列中任意两个token之间的依赖关系,弥补线性注意力在长距离、精细化信息检索上的不足。

这种混合设计使得Kimi Linear在长序列生成过程中,能将内存和KV缓存使用量减少高达75%。在处理百万级别上下文长度时,实现高达6.3倍的解码吞吐量提升。

图片

核心技术创新与性能突破

Kimi Delta Attention是架构的核心创新,这是一种新型的门控线性注意力变体。

图片

它基于Gated DeltaNet进行关键改进,通过更精细的门控机制实现对循环神经网络有限状态记忆的有效利用。KDA采用增量法则,将注意力状态更新过程重新解释为重构损失上的在线梯度下降,稳定了学习过程并提升性能。

另一个引人注目的设计是所有全注意力层都不使用任何显式的位置编码。模型将编码位置信息和时序偏见的全部责任交给KDA层,这种策略在长文本任务上表现出更强的鲁棒性和外推能力。

这一技术突破对AI应用开发具有深远意义。大幅降低的KV缓存意味着在相同硬件条件下,可以处理更长的上下文内容,支持更复杂的长文档分析和多轮对话场景解码速度的显著提升直接转化为更低的推理成本和更高的系统吞吐量,为AI应用的大规模商业化部署创造条件。

月之暗面已经开源了核心代码,并提供了vLLM集成支持,这将加速技术在开发者社区的普及和应用验证。

随着线性注意力技术的成熟,它有望成为下一代Agent LLM的基石技术,在长上下文推理、智能助手和多模态生成等应用中发挥关键作用。

当前,人工智能技术正处在快速演进阶段,计算效率的突破将直接决定应用落地的广度和深度。

Kimi Linear的出现,为行业提供了处理长文本任务的新选择,也预示着大模型架构创新远未到达终点。

http://www.dtcms.com/a/552774.html

相关文章:

  • 做电子商务系统网站建设wordpress图片加水印
  • 电机参数标幺化与定点计算在整数MCU上的实现
  • Rust开发之错误处理与日志记录结合(log crate使用)
  • 2025年11月1日(星期六)骑行笔架山
  • opencv 学习: 03 初识 cv:Mat
  • 数据结构(c++版):邻接矩阵的实现
  • 在华为TaiShan 200系列服务器基于CentOS 7.6/7.7创建虚拟机
  • Parallels Desktop 26.1.1 for Mac 秋叶QiuChenly中文解锁直装版,最好用的macOS虚拟机
  • Linux chmod权限速成指南
  • 企业网站建设市场的另一面写字就能赚钱做网站
  • 【已解决】解决CondaVerificationError:PyTorch安装包损坏问题
  • UI引擎里AceAbility::OnStart函数1
  • 卸载工具uninstall tool下载安装教程(附安装包)绿色版
  • Bug: 升级内核后有线网络无法使用
  • 帕金森症手绘图像分类数据集
  • 本地生活曝光缺失?GEO语义锚点来救场
  • Rust开发之Result枚举与?运算符简化错误传播
  • Rust专项——其他集合类型详解:BTreeMap、VecDeque、BinaryHeap
  • 软件开发模式架构选择
  • 网站开发设计注册注册小程序
  • Git命令(三)
  • Spring Security 新手学习教程
  • 72.是否可以把所有Bean都通过Spring容器来管
  • DevExpress WPF中文教程:Data Grid - 如何使用虚拟源?(四)
  • 车载软件需求开发与管理 --- 需求收集与整理
  • [linux仓库]线程控制[线程·叁]
  • 从工行“余额归零”事件看CAP定理:当金融系统在一致性与可用性之间做出选择
  • Java的stream使用方案
  • 给网站做视频怎么赚钱电影网站系统源码
  • React Server Components 进阶:数据预取与缓存