当前位置: 首页 > news >正文

Kimi Linear 论文阅读笔记:第一次“线性注意力”全面胜过全注意力

1️⃣ 背景 & 问题

Transformer 的软最大注意力(softmax attention)是 LLM 核心,但有两大痛点:

指标复杂度
时间O(N²)
KV cache与 context 线性增长

尤其在百万级上下文、Agent 推理、RL 长轨迹,全注意力慢、贵、卡显存

已有改进:

类别代表问题
线性注意力Mamba2、DeltaNet、RetNet表达能力弱,短上下文也不如 Transformer
混合注意力RWKV/Hyena、Hybrid models有提升,但规模/评测不够全面

📢 目标:找到能直接替代 Transformer 的 attention 架构——更强 + 更快 + 更省显存

Kimi Linear 达成了。
在这里插入图片描述


2️⃣ 核心贡献:Kimi Delta Attention + 3:1 Hybrid

✅ 贡献一:Kimi Delta Attention (KDA)

在这里插入图片描述

对 DeltaNet/GDN 做了两大升级:

模块GDNKDA
遗忘机制标量 α逐通道门控 Diag(α) ✅
状态更新I - βkkᵀ同,但带细粒度 decay
位置感知基于 decayLearnable position embedding 替代 RoPE ✅

在这里插入图片描述
核心递推:

更新公式

在时刻 ttt 的状态矩阵 StS_tSt 满足

下面给出可直接粘贴到 CSDN 编辑器的「LaTeX + Markdown」源码,支持富文本与 Markdown 两种模式一键渲染。
(已测试 CSDN 默认 KaTeX,无需额外插件)

更新公式

在时刻 ttt 的状态矩阵 StS_tSt 满足

St=(I−βktktT)Diag(αt)St−1+βktvtTS_t = (I - \beta k_t k_t^T) \text{Diag}(\alpha_t) S_{t-1} + \beta k_t v_t^T St=(IβktktT)Diag(αt)St1+βktvtT

其中

  • III 为单位矩阵;
  • β\betaβ 为标量学习率;
  • kt,vtk_t,\ v_tkt, vt 为第 ttt 步的向量;
  • αt\alpha_tαt 为门控系数向量,Diag(αt)\mathrm{Diag}(\alpha_t)Diag(αt) 表示以其为对角元素的对角矩阵。

➡️ 比 Mamba2 更精细、比 GDN 更稳定、更能保信息

✅ 贡献二:Chunkwise + 高效 DPLR 变体

  • 采用 WY 形式 + UT 变换(高效矩阵组合)
  • 避免二级 chunking 带来的 FP32 开销
  • 比通用 DPLR 快 2×

✅ 贡献三:架构设计 = 3 KDA + 1 MLA

模式说明
3 线性层负责位置建模 + 高效局部记忆
1 全注意力保证全局信息同步
NoPE全注意力层不用 RoPE 😮

这样:

  • 75% 层不需要 KV cache
  • 1M context decoding 提速

3️⃣ 实验:全面刷新认知

📌 关键结果

场景SOTA?描述
短上下文Pretrain/SFT 全优于 MLA
长上下文 (1M)128k / 1M 上大幅领先
推理速度1M context 6.3×
显存KV cache 节省 75%
RL 推理任务提升数学/代码 RL 收敛速度

🔥 图示结论

在这里插入图片描述

在这里插入图片描述

1M context 输出速度:6× Transformer

长上下文榜单平均:Kimi Linear 第一

1.4T token 公平训练:全面优于 full attention

Scaling law:同算力,效果 +16%

在这里插入图片描述


4️⃣ 与业界模型对比

模型结构长上下文推理速度短任务质量
TransformerSoftmax
Mamba2RNN+DSS❌(表达弱)
DeltaNet/GDNdelta rule~
Kimi Linear细粒度 KDA + Hybrid✅✅✅✅✅✅✅ 🚀

一句话:

第一次有线性注意力完整超越 Transformer


5️⃣ 为什么 KDA 能做到?

技术作用
逐通道遗忘 Diag(α)像 RoPE 一样编码位置信息
Delta rule具备快权重&学习记忆
混合注意力保证全局精度
NoPE避免 RoPE 长上下文崩
精调 kernel2× DPLR 提速

学术定位:

线性注意力 = 退化的 Transformer
➡️ KDA 让它重新“学会”位置、记忆、建模依赖


6️⃣ 工程师角度思考 & 启示

✅ 工程角度

意义
线性 attention 成熟了可以大规模生产
架构无需重写vLLM 已支持
长序列压倒性优势RAG / agent / 代码 / log AI
MoE + Linear大模型未来方向明确

✅ 理论角度

学习到的位置信息 > 手工设计 RoPE


7️⃣ 个人总结

这篇报告是 Transformer 之后架构演进的一座里程碑

  • 不走纯 RNN 路线(Mamba)
  • 不走卷积核路线(Hyena)
  • 用 delta-rule 学习自适应位置编码
  • 混合架构 平衡精度与效率

一句话评价:

Kimi Linear = 能直接替代 Transformer 的 Attention 方案

下一步期待:

  • 社区模型规模全线改这套
  • 训练效率/精度进一步优化
  • 与 FlashAttention 生态融合

📎 建议阅读与代码

  • https://github.com/MoonshotAI/Kimi-Linear
  • https://github.com/fla-org/flash-linear-attention/tree/main/fla/ops/kda

可视为 线性注意力版 FlashAttention2

http://www.dtcms.com/a/553557.html

相关文章:

  • 金华网站开发开发网站需要什么硬件
  • 使用mysql客户端工具造数据方法入门
  • 光刻胶分类与特性——g/i线光刻胶及东京应化TP-3000系列胶典型配方(下)
  • Spring Boot项目快速稳健架构指南
  • 网站wordpress错误网站设计宽度尺寸
  • 图像分割技术总结
  • iptables u32 match 对字节后退的支持
  • gymnasium中space用法
  • 【win11】4:funasr配置python依赖项并下载模型
  • 网站官网上的新闻列表怎么做官网排名优化方案
  • Flink 优化-状态及 Checkpoint 调优
  • 会员中心网站模板网站优化要素
  • 微软简化Windows更新!命名更加直观:只保留重点
  • 7.进程控制(三)
  • MSA 基因序列对比差异化 相关使用
  • Kafka(文件)数据存储、清理机制、高性能设计
  • 湖南免费网站建设怀化网站建设有哪些
  • Redis 从基础到实战
  • 投标建设用地是哪个网站广州seo培训
  • 做电影网站需要注意什么软件网站开发 erp系统开发
  • 删除wps的空白页
  • 计算机网络 —— F / 应用层
  • 62 VueComponent watcher 的实现
  • Ethernaut Level 15: Naught Coin - ERC20 approve/transferFrom漏洞
  • PySide6 实现win10 手动与自动切换主题 借助系统托盘
  • 上传项目至Github与从Github克隆项目
  • 做个人网站的步骤上海建筑设计公司平台
  • 如何使用一个模型完成多种交通任务?请看此文
  • 第N2周:构建词典
  • 德意志飞机D328eco携手ADS:CMS+IETM双引擎,点燃通用航空效率革命