当前位置：首页 > news >正文

DeepSeek 最新推出 ‌EX 模型

news 2025/10/3 9:50:51

DeepSeek-V3.2-Exp 模型全面解析

基本信息
发布时间‌：2025年9月29日，DeepSeek官方同步在HuggingFace与魔搭平台开源该模型‌。
定位‌：作为实验性(Experimental)版本，是迈向新一代架构的中间步骤，重点探索长文本场景下的效率优化‌。
核心创新‌：首次引入‌DeepSeek Sparse Attention‌（稀疏注意力机制），通过动态筛选关键信息（如Top-2048 token）显著降低计算复杂度‌。
技术突破与性能表现
稀疏注意力机制‌：
采用"闪电索引器"(lightning indexer)实现细粒度token选择，将传统Transformer的O(L)复杂度降至O(Lk)‌。
在128K token长序列场景下，推理成本较V3.1-Terminus降低42%，同时保持编程、数学等核心任务性能稳定‌。
硬件适配‌：已完成华为昇腾、寒武纪、海光信息等国产芯片适配，验证了高通用性与生态兼容性‌。
与V3.1-Terminus的对比
维度 V3.1-Terminus V3.2-Exp (EX模型)
注意力机制‌ 传统全局注意力稀疏注意力(DSA)
长文本效率‌ 标准计算量计算量减少42%‌
API价格‌ 原价下调50%以上‌
开源支持‌ 部分开源全栈开源(含技术报告)‌
应用场景
长文本处理‌：适合法律文书分析、学术论文摘要等场景，处理10万+token文档时内存占用降低35%‌。
代码生成‌：在SWE-bench测试中保持82%准确率，支持项目级代码补全‌。
垂直领域‌：已应用于核工业设计（如"龙衍系统"）、建筑工程方案生成等专业场景‌。
开发者生态
API策略‌：临时保留V3.1-Terminus接口至2025年10月15日，方便对比验证‌。
开源组件‌：提供TileLang与CUDA双版本GPU算子，支持社区二次开发‌。