DeepSeek 最新推出 EX 模型
DeepSeek-V3.2-Exp 模型全面解析
- 基本信息
发布时间:2025年9月29日,DeepSeek官方同步在HuggingFace与魔搭平台开源该模型。
定位:作为实验性(Experimental)版本,是迈向新一代架构的中间步骤,重点探索长文本场景下的效率优化。
核心创新:首次引入DeepSeek Sparse Attention(稀疏注意力机制),通过动态筛选关键信息(如Top-2048 token)显著降低计算复杂度。 - 技术突破与性能表现
稀疏注意力机制:
采用"闪电索引器"(lightning indexer)实现细粒度token选择,将传统Transformer的O(L)复杂度降至O(Lk)。
在128K token长序列场景下,推理成本较V3.1-Terminus降低42%,同时保持编程、数学等核心任务性能稳定。
硬件适配:已完成华为昇腾、寒武纪、海光信息等国产芯片适配,验证了高通用性与生态兼容性。 - 与V3.1-Terminus的对比
维度 V3.1-Terminus V3.2-Exp (EX模型)
注意力机制 传统全局注意力 稀疏注意力(DSA)
长文本效率 标准计算量 计算量减少42%
API价格 原价 下调50%以上
开源支持 部分开源 全栈开源(含技术报告) - 应用场景
长文本处理:适合法律文书分析、学术论文摘要等场景,处理10万+token文档时内存占用降低35%。
代码生成:在SWE-bench测试中保持82%准确率,支持项目级代码补全。
垂直领域:已应用于核工业设计(如"龙衍系统")、建筑工程方案生成等专业场景。 - 开发者生态
API策略:临时保留V3.1-Terminus接口至2025年10月15日,方便对比验证。
开源组件:提供TileLang与CUDA双版本GPU算子,支持社区二次开发。
DeepSeek EX模型与V3.1版本的核心区别
- 架构与注意力机制