当前位置：首页 > news >正文

从近期Kimi-Linear、LongCat-Video和Qwen-Next解读下一代大模型架构升级

news 2025/11/14 8:48:07

大模型技术博客汇总

前言：近期Kimi-Linear、LongCat-Video和Qwen-Next都公开了技术报告和原始代码，共同点是他们都从架构上做了不小的升级，带来了超长tokens的处理能力和更快的推理性能。这篇博客就从近期Kimi-Linear、LongCat-Video和Qwen-Next解读下一代大模型架构升级。

目录

从“全注意力”走向“混合线性

Kimi-Linear

Qwen-Next

LongCat-Video

趋势判断

超高稀疏比的MoE

Qwen-Next

Kimi-Linear

LongCat-Video

从“全注意力”走向“混合线性

现在全注意力遇到的问题：

KV-Cache 爆炸：对于 1M token 输入，即使 batch=1，KV-Cache 也会占据数十 GB 显存（例如：1M × 4096 × 2 × 2 bytes ≈ 32GB）。
注意力计算瓶颈：标准注意力的 QK^T 需 O(n²) 内存与计算，n=1M 时完全不可行。

Kimi-Linear

用 3:1 的“KDA-MLA”分层混合，75% 层采用线性复杂度的 Kimi-Delta-Attention（KDA），25% 层保留全局 MLA，保证长程信号不丢失的同时把 KV-Cache 砍掉 75%，1 M token 场景解码吞吐量提高 6 倍。

Qwen-Next

采用“GatedDeltaNet+GatedAttention”双通道：DeltaNet 用类 SSM 的线性递归记住“全书脉络”，GatedAttention 只聚焦关键局部，两层结果相加；既降低计算量，也保留高精度路由。

LongCat-Video

所有的attention层采用sparse attention，降低运算量。

这是因为视频生成场景下的注意力更加稀疏，所以使用sparse attention更具有价值。

趋势判断

纯 softmax 注意力将只在“关键少数”层出现，线性化（或递归化）+ 门控混合会成为长上下文模型的默认范式。

超高稀疏比的MoE

刚才说的优化仅限于Attention部分，剩下的运算量就主要集中在FFN层了。

对于FFN层的优化，最好的办法就是训MoE模型。

Qwen-Next

把激活比压到 1:50（800 B 总参数只激活 3 B），并引入“10 路由专家 + 1 共享专家”结构：共享专家负责通用语义，路由专家负责领域细节，既减少专家冲突又提高命中率。

Kimi-Linear

虽然总参数 48 B、激活 3 B（1:16），但在 KDA 层内部同样用“分组门控”把特征维度进一步拆分，实现“通道级”细粒度稀疏，达到近似“专家内再分专家”的效果。

LongCat-Video

没有用上MoE，但是我相信这边的技术迟早会普及到diffusion领域。

http://www.dtcms.com/a/606076.html

相关文章：

记一次 .NET 某理财管理客户端 OOM溢出分析

英文网站如何做seo下载期货行情软件

2022年没封网站直接进入中太建设集团官方网站

DeepSeek-OCR实战(06)：SpringBoot应用接入

三十、STM32的USART （串口发送+接收）

WebSocket-学习调研

GPU-Initiated Networking （GIN）及其核心硬件基础 SCI

怎么提高网站加载速度工资卡app下载

【Rust】系统编程语言的核心语法以及常见应用场景浅谈：系统、Web、网络、命令行

网站建设哪公司好上饶市建设局有什么网站

网站黄金比例如何在已建设好的网站做修改

新网站seo优化wordpress前台出现旧版文件

HarmonyOS：@State 装饰器——组件内状态

网站维护与建设腾讯企点是什么

ListBox控件扩展内容高度自适应，添加图标

如何将短信从安卓手机传输到电脑

带复选框的combox

门户网站开发价格郑州网站建设(智巢)

主从服务器配置

批量坐标转换（Excel版）

在线C语言编译 | 简化开发流程，提升编程效率

建筑企业网站源码免费创业平台

基于Python野生植物识别应用模型的研究

BuildingAI技术架构文档

网站技术支持衡水网站公司

一站式做网站哪家专业wordpress保存远程图片

WPS Office v18.22.0 国际版

基于Matlab的数字基带通信系统仿真与性能分析

Types of Attributes｜属性类型

哈尔滨php网站开发公司深圳做网站肖先生