当前位置: 首页 > news >正文

从近期Kimi-Linear、LongCat-Video和Qwen-Next解读下一代大模型架构升级

大模型技术博客汇总

前言:近期Kimi-Linear、LongCat-Video和Qwen-Next都公开了技术报告和原始代码,共同点是他们都从架构上做了不小的升级,带来了超长tokens的处理能力和更快的推理性能。这篇博客就从近期Kimi-Linear、LongCat-Video和Qwen-Next解读下一代大模型架构升级。

目录

从“全注意力”走向“混合线性

Kimi-Linear

Qwen-Next

LongCat-Video

趋势判断

超高稀疏比的MoE

Qwen-Next

Kimi-Linear

LongCat-Video


从“全注意力”走向“混合线性

现在全注意力遇到的问题:

  • KV-Cache 爆炸:对于 1M token 输入,即使 batch=1,KV-Cache 也会占据数十 GB 显存(例如:1M × 4096 × 2 × 2 bytes ≈ 32GB)。
  • 注意力计算瓶颈:标准注意力的 QK^T 需 O(n²) 内存与计算,n=1M 时完全不可行。

Kimi-Linear

用 3:1 的“KDA-MLA”分层混合,75% 层采用线性复杂度的 Kimi-Delta-Attention(KDA),25% 层保留全局 MLA,保证长程信号不丢失的同时把 KV-Cache 砍掉 75%,1 M token 场景解码吞吐量提高 6 倍。

Qwen-Next

采用“GatedDeltaNet+GatedAttention”双通道:DeltaNet 用类 SSM 的线性递归记住“全书脉络”,GatedAttention 只聚焦关键局部,两层结果相加;既降低计算量,也保留高精度路由。

LongCat-Video

所有的attention层采用sparse attention,降低运算量。

这是因为视频生成场景下的注意力更加稀疏,所以使用sparse attention更具有价值。

趋势判断

纯 softmax 注意力将只在“关键少数”层出现,线性化(或递归化)+ 门控混合会成为长上下文模型的默认范式。

超高稀疏比的MoE

刚才说的优化仅限于Attention部分,剩下的运算量就主要集中在FFN层了。

对于FFN层的优化,最好的办法就是训MoE模型。

Qwen-Next

把激活比压到 1:50(800 B 总参数只激活 3 B),并引入“10 路由专家 + 1 共享专家”结构:共享专家负责通用语义,路由专家负责领域细节,既减少专家冲突又提高命中率。

Kimi-Linear

虽然总参数 48 B、激活 3 B(1:16),但在 KDA 层内部同样用“分组门控”把特征维度进一步拆分,实现“通道级”细粒度稀疏,达到近似“专家内再分专家”的效果。

LongCat-Video

没有用上MoE,但是我相信这边的技术迟早会普及到diffusion领域。

http://www.dtcms.com/a/606076.html

相关文章:

  • 记一次 .NET 某理财管理客户端 OOM溢出分析
  • 英文网站如何做seo下载期货行情软件
  • 2022年没封网站直接进入中太建设集团官方网站
  • DeepSeek-OCR实战(06):SpringBoot应用接入
  • 三十、STM32的USART (串口发送+接收)
  • WebSocket-学习调研
  • GPU-Initiated Networking (GIN)及其核心硬件基础 SCI
  • 怎么提高网站加载速度工资卡app下载
  • 【Rust】系统编程语言的核心语法以及常见应用场景浅谈:系统、Web、网络、命令行
  • 网站建设哪公司好上饶市建设局有什么网站
  • 网站黄金比例如何在已建设好的网站做修改
  • 新网站seo优化wordpress前台出现旧版文件
  • HarmonyOS:@State 装饰器——组件内状态
  • 网站维护与建设腾讯企点是什么
  • ListBox控件扩展内容高度自适应,添加图标
  • 如何将短信从安卓手机传输到电脑
  • 带复选框的combox
  • 门户网站开发价格郑州网站建设(智巢)
  • 主从服务器配置
  • 批量坐标转换(Excel版)
  • 在线C语言编译 | 简化开发流程,提升编程效率
  • 建筑企业网站源码免费创业平台
  • 基于Python野生植物识别应用模型的研究
  • BuildingAI技术架构文档
  • 网站技术支持衡水网站公司
  • 一站式做网站哪家专业wordpress保存远程图片
  • WPS Office v18.22.0 国际版
  • 基于Matlab的数字基带通信系统仿真与性能分析
  • Types of Attributes|属性类型
  • 哈尔滨php网站开发公司深圳做网站 肖先生