从近期Kimi-Linear、LongCat-Video和Qwen-Next解读下一代大模型架构升级
大模型技术博客汇总
前言:近期Kimi-Linear、LongCat-Video和Qwen-Next都公开了技术报告和原始代码,共同点是他们都从架构上做了不小的升级,带来了超长tokens的处理能力和更快的推理性能。这篇博客就从近期Kimi-Linear、LongCat-Video和Qwen-Next解读下一代大模型架构升级。

目录
从“全注意力”走向“混合线性
Kimi-Linear
Qwen-Next
LongCat-Video
趋势判断
超高稀疏比的MoE
Qwen-Next
Kimi-Linear
LongCat-Video
从“全注意力”走向“混合线性
现在全注意力遇到的问题:
- KV-Cache 爆炸:对于 1M token 输入,即使 batch=1,KV-Cache 也会占据数十 GB 显存(例如:1M × 4096 × 2 × 2 bytes ≈ 32GB)。
- 注意力计算瓶颈:标准注意力的 QK^T 需 O(n²) 内存与计算,n=1M 时完全不可行。
Kimi-Linear
用 3:1 的“KDA-MLA”分层混合,75% 层采用线性复杂度的 Kimi-Delta-Attention(KDA),25% 层保留全局 MLA,保证长程信号不丢失的同时把 KV-Cache 砍掉 75%,1 M token 场景解码吞吐量提高 6 倍。
Qwen-Next
采用“GatedDeltaNet+GatedAttention”双通道:DeltaNet 用类 SSM 的线性递归记住“全书脉络”,GatedAttention 只聚焦关键局部,两层结果相加;既降低计算量,也保留高精度路由。
LongCat-Video
所有的attention层采用sparse attention,降低运算量。
这是因为视频生成场景下的注意力更加稀疏,所以使用sparse attention更具有价值。
趋势判断
纯 softmax 注意力将只在“关键少数”层出现,线性化(或递归化)+ 门控混合会成为长上下文模型的默认范式。
超高稀疏比的MoE
刚才说的优化仅限于Attention部分,剩下的运算量就主要集中在FFN层了。
对于FFN层的优化,最好的办法就是训MoE模型。
Qwen-Next
把激活比压到 1:50(800 B 总参数只激活 3 B),并引入“10 路由专家 + 1 共享专家”结构:共享专家负责通用语义,路由专家负责领域细节,既减少专家冲突又提高命中率。
Kimi-Linear
虽然总参数 48 B、激活 3 B(1:16),但在 KDA 层内部同样用“分组门控”把特征维度进一步拆分,实现“通道级”细粒度稀疏,达到近似“专家内再分专家”的效果。
LongCat-Video
没有用上MoE,但是我相信这边的技术迟早会普及到diffusion领域。
