当前位置: 首页 > news >正文

【DeepSeek 论文精读】13. DeepSeek-V3.2-Exp 技术报告与部署实践

欢迎关注【人工智能通识专栏】原创作品
【人工智能通识专栏】第一讲:LLM的发展历程
【人工智能通识专栏】第二讲:学会使用DeepSeek
【人工智能通识专栏】第三十讲:Deepseek辅助文献阅读

【DeepSeek 论文精读】13. DeepSeek-V3.2-Exp 技术报告与部署实践

    • 0. DeepSeek-V3.2-Exp 模型发布
      • 0.1 技术特性
      • 0.2 核心技术:稀疏注意力机制 (DSA)
      • 0.3 开源模型
      • 0.4 论文简介
      • 0.5 摘要
    • 1. 架构
    • 2. 训练
      • 2.1 持续预训练
      • 2.2 后训练阶段
    • 3. 评估
    • 4. DeepSeek-V3.2-Exp 部署方案与技术实现
      • 4.1 本地部署方案
      • 4.2 对比测试
    • 引用


0. DeepSeek-V3.2-Exp 模型发布

DeepSeek 已于今日(2025年9月29日)正式发布了 DeepSeek-V3.2-Exp 模型。、

这是一个实验性(Experimental)的版本。作为迈向新一代架构的中间步骤,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。目前,官方 App、网页端、小程序均已同步更新为 DeepSeek-V3.2-Exp,同时 API 大幅度降价。

在这里插入图片描述

0.1 技术特性

  • 基础架构:基于V3.1-Terminus构建,保持671B参数规模
  • 创新机制:首次实现细粒度稀疏注意力,突破传统Transformer架构限制
  • 效率提升:在长文本处理场景中显著降低计算成本和内存使用
  • 质量保证:输出质量与V3.1-Terminus几乎完全一致

在这里插入图片描述


0.2 核心技术:稀疏注意力机制 (DSA)

核心技术:稀疏注意力机制 (DSA)

DeepSeek Sparse Attention(DSA)首次实现了细粒度稀疏注意力机制,这项技术旨在解决传统Transformer模型在处理长文本时计算复杂度高的问题。

  • 工作原理:传统的注意力机制需要计算序列中每个token与所有其他token的关系,导致计算量随文本长度呈平方级增长。而DSA首次实现了细粒度的稀疏注意力,通过选择性计算注意力权重,有效突破了这一限制。

  • 带来的好处:这意味着在处理长上下文(如128K长度)时,模型的推理速度更快,内存使用更少,从而显著降低了计算成本。在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。在这里插入图片描述

  • 性能保持:为了严谨评估DSA的影响,DeepSeek将V3.2-Exp的训练设置与V3.1-Terminus进行了严格对齐。结果表明,新模型在MMLU-Pro、AIME、Codeforces等多个公开基准测试集上,性能与前代模型基本相当,确保了效率提升不以牺牲性能为代价。

  • 成本大降:此次发布伴随着一个对开发者极其友好的举措——API价格大幅下调超过50%。这使得调用DeepSeek官方API的成本更低,极大地降低了开发者和企业的使用门槛。


0.3 开源模型

官方应用:你可以直接通过官方App、网页端或小程序体验DeepSeek-V3.2-Exp模型。

开源模型:模型已在Hugging Face和ModelScope(魔搭)等平台全面开源,方便开发者进行深入研究、部署和二次开发。

  • HuggingFace:
    https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

  • ModelScope:
    https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp

  • DeepSeek-V3.2-Exp 技术报告:
    https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf


0.4 论文简介

  • 论文标题:DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention(DeepSeek-V3.2-Exp:通过DeepSeek稀疏注意力机制提升长上下文处理效率)
  • 发布时间:2025 年 9 月
  • 下载地址:Github: Deepseek-V3.2

在这里插入图片描述


0.5 摘要

我们推出DeepSeek-V3.2-Exp,这是一款实验性稀疏注意力模型,它通过持续训练为DeepSeek-V3.1-Terminus装备了DeepSeek稀疏注意力(DSA)。

借助DSA这一由闪电索引器驱动的细粒度稀疏注意力机制,DeepSeek-V3.2-Exp在训练和推理效率上都取得了显著提升,尤其是在长上下文场景中。模型检查点可在以下网址获取:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp。


1. 架构

与DeepSeek-V3.1-Terminus(即DeepSeek-V3.1的最终版本)相比,DeepSeek-V3.2-Exp在架构上的唯一改动是通过持续训练引入了DeepSeek稀疏注意力(DSA)。

在这里插入图片描述

图1 | DeepSeek-V3.2-Exp的注意力架构示意图——其中DSA是在MLA框架下实例化实现的。绿色部分展示了DSA如何根据索引器选择top-k键值条目的过程。


DSA原型

DSA的原型主要包含两个组件:闪电索引器和细粒度token选择机制。

闪电索引器计算查询token h𝑡 ∈ R𝑑与前驱token h𝑠 ∈ R𝑑之间的索引得分𝐼𝑡,𝑠,以确定哪些token将被查询token选中:


在这里插入图片描述

其中 HI 表示索引器头的数量;qI t, j ∈ RdI 和 wI t, j ∈ R 由查询词元 ht 推导得出;kI s ∈ RdI 则由前驱词元 hs 推导得出。出于计算吞吐量的考量,我们选择 ReLU 作为激活函数。鉴于闪电索引器的头数较少且可用 FP8 实现,其计算效率十分显著。


根据每个查询词元 ht 的索引分数 {It,s},我们的细粒度词元选择机制仅检索与前 k 个索引分数对应的键值条目 {cs}。随后,通过应用查询词元 ht 与稀疏选择的键值条目 {cs} 之间的注意力机制计算注意力输出 ut:

在这里插入图片描述

在多元线性注意力(MLA)框架下实例化DSA。
为了考虑从DeepSeek-V3.1-Terminus进行持续训练的需求,我们基于MLA(DeepSeek-AI,2024)为DeepSeek-V3.2-Exp实例化DSA。在内核层面,每个键值条目必须在多个查询间共享以保证计算效率(Yuan等,2025)。

因此,我们基于MLA的多查询注意力(MQA)模式(Shazeer,2019)实现DSA,其中每个潜在向量(MLA的键值条目)将在查询词元的所有查询头之间共享。基于MLA的DSA架构如图1所示。我们还提供了DeepSeek-V3.2-Exp的开源实现以明确说明具体细节。


2. 训练

从上下文长度已扩展至128K的DeepSeek-V3.1-Terminus基础检查点出发,我们通过持续预训练和后训练来构建DeepSeek-V3.2-Exp。


2.1 持续预训练

DeepSeek-V3.2-Exp的持续预训练包含两个训练阶段。在这两个阶段中,训练数据的分布均与DeepSeek-V3.1-Terminus的128K长上下文扩展数据完全对齐。

密集预热阶段

我们首先采用一个简短的预热阶段来初始化Lightning索引器。在此阶段,我们保持稠密注意力(dense attention),并冻结除Lightning索引器之外的所有模型参数。为了使索引器输出与主要注意力分布对齐,对于第𝑡个查询标记,我们首先通过对所有注意力头的分数求和来聚合主要注意力分数。


该求和结果随后沿序列维度进行L1归一化,生成目标分布𝑝𝑡,: ∈ R𝑡。基于𝑝𝑡,:,我们设置KL散度损失作为索引器的训练目标:
在这里插入图片描述

我们采用10^-3的学习率进行索引器预热训练,仅训练1000步。每步处理16条128K标记的序列,总计训练21亿标记(2.1B tokens)。


稀疏训练阶段

完成索引器预热后,我们引入细粒度标记选择机制,并优化所有模型参数以使模型适应DSA的稀疏模式。在本阶段,我们持续保持索引器输出与主要注意力分布的对齐,但仅考虑被选标记集合S_t = {s | I_t,s ∈ Top-k(I_t,:)}。

在这里插入图片描述
需要特别说明的是,我们将索引器的输入从计算图中分离以实现独立优化。索引器的训练信号仅来自L_I,而主模型的优化则仅基于语言建模损失。在此稀疏训练阶段,我们采用7.3×10^-6的学习率,并为每个查询标记选定2048个键值标记。我们对主模型和索引器进行15000步训练,每步处理480条128K标记的序列,总计训练9437亿标记(943.7B tokens)。


2.2 后训练阶段

在完成持续预训练后,我们通过后训练流程生成最终的DeepSeek-V3.2-Exp模型。该阶段沿用与稀疏持续预训练相同的动态稀疏注意力(DSA)机制。为严谨评估DSA的引入效果,DeepSeek-V3.2-Exp采用与DeepSeek-V3.1-Terminus完全一致的后训练流程、算法和数据配置,具体如下:

专家蒸馏
针对每类任务,我们首先基于统一的DeepSeek-V3.2基础检查点微调出领域专用模型(specialist)。除文本生成和通用问答外,框架涵盖五大专业领域:数学、竞赛编程、通用逻辑推理、智能体编码(agentic coding)及智能体搜索(agentic search)。所有专家模型均通过大规模强化学习(RL)进行训练,并分别构建长思维链推理(thinking mode)与直接响应生成(non-thinking mode)的专用训练数据。实验表明,基于蒸馏数据训练的模型性能与领域专家模型差距极小,后续RL训练可完全消除这一差异。

混合强化学习
DeepSeek-V3.2-Exp采用组相对策略优化(GRPO)算法(DeepSeek-AI, 2025; Shao et al., 2024)。与以往多阶段强化学习的DeepSeek模型不同,本次将推理、智能体任务与人类对齐训练合并为单一RL阶段。该方法在保证多领域性能平衡的同时,有效规避了多阶段训练常见的灾难性遗忘问题。

具体奖励机制设计如下:

  • 推理与智能体任务:基于规则的结果奖励、长度惩罚及语言一致性奖励
  • 通用任务:采用生成式奖励模型,每个提示(prompt)配有专属评估准则

奖励设计重点平衡两种权衡关系:

  • 响应长度与准确性
  • 语言一致性(language consistency)与准确性

3. 评估

  1. 模型能力

我们在多类基准测试中对DeepSeek-V3.2-Exp进行了评估,重点关注多样化能力,并与DeepSeek-V3.1-Terminus进行了对比(见表1)。结果显示,尽管DeepSeek-V3.2-Exp在长序列任务上的计算效率显著提升,但在短上下文和长上下文任务中,其性能均未出现明显下降。

此外,我们还比较了两个模型的强化学习训练曲线(见图2)。在整个训练过程中,DeepSeek-V3.2-Exp和DeepSeek-V3.1-Terminus在BrowseComp和SWE Verified任务上的表现均稳步提升,且二者的训练曲线高度吻合,反映出DSA(动态稀疏注意力)优异的训练稳定性。

在这里插入图片描述

图2 | DeepSeek-V3.1-Terminus和DeepSeek-V3.2-Exp在BrowseComp及SWE Verified任务上的强化学习训练曲线。实线和虚线分别表示准确率和平均输出标记数量。


  1. 推理成本

DSA将主模型的核心注意力复杂度从O(L²) 降至O(Lk),其中k(≪ L)为所选标记的数量。虽然闪电索引器(lightning indexer)的复杂度仍为O(L²),但其计算量远低于DeepSeek-V3.1-Terminus中的MLA(多层注意力)。结合我们的优化实现,DSA在长上下文场景下实现了显著的端到端加速。图3展示了DeepSeek-V3.1-Terminus和DeepSeek-V3.2-Exp的标记成本随序列位置的变化情况。这些成本基于在H800 GPU(租用价格为每小时2美元)上实际部署服务的基准测试估算得出。需要注意的是,对于短序列预填充任务,我们专门采用了掩码多头注意力(masked MHA)模式来模拟DSA,从而在短上下文条件下实现更高效率。

在这里插入图片描述
图3 | DeepSeek-V3.1-Terminus与DeepSeek-V3.2-Exp在H800计算集群上的推理成本分析。


  1. 实际场景验证

虽然内部评估显示DeepSeek-V3.2-Exp的结果令人鼓舞,但我们仍在积极寻求在实际场景中开展更大规模的测试,以揭示稀疏注意力架构潜在的限制。


4. DeepSeek-V3.2-Exp 部署方案与技术实现

4.1 本地部署方案

  1. HuggingFace原生部署

我们在 inference 文件夹中提供了一个更新的推理演示代码,以帮助社区快速开始使用我们的模型并了解其架构细节。

首先将 Hugging Face 模型权重转换为我们的推理演示所需的格式。设置 MP 以匹配您的可用 GPU 数量:

# 模型权重转换
cd inference
export EXPERTS=256
python convert.py --hf-ckpt-path ${HF_CKPT_PATH} \--save-path ${SAVE_PATH} \--n-experts ${EXPERTS} \--model-parallel ${MP}

启动交互式聊天界面并开始探索 DeepSeek 的功能:

# 启动交互式界面
export CONFIG=config_671B_v3.2.json
torchrun --nproc-per-node ${MP} generate.py \--ckpt-path ${SAVE_PATH} \--config ${CONFIG} \--interactive

  1. SGLang高性能部署

docker 安装

# H200
docker pull lmsysorg/sglang:dsv32# MI350
docker pull lmsysorg/sglang:dsv32-rocm# NPUs
docker pull lmsysorg/sglang:dsv32-a2
docker pull lmsysorg/sglang:dsv32-a3

命令行安装:

python -m sglang.launch_server \--model deepseek-ai/DeepSeek-V3.2-Exp \--tp 8 --dp 8 --page-size 64

  1. vLLM集成

vLLM提供day-0支持,详细配置可参考官方recipes。

wget https://wheels.vllm.ai/dsv32/vllm-0.10.2rc3.dev371%2Bgb215ed849.cu129-cp38-abi3-linux_x86_64.whl
git clone https://github.com/heheda12345/vllm.git
cd vllm
git checkout dsv32
VLLM_USE_PRECOMPILED=1 VLLM_PRECOMPILED_WHEEL_LOCATION=$(pwd)/vllm-0.10.2rc3.dev371+gb215ed849.cu129-cp38-abi3-linux_x86_64.whl uv pip install -vvv -e .
pip install https://wheels.vllm.ai/dsv32/deep_gemm-2.1.0%2B594953a-cp312-cp312-linux_x86_64.whl

4.2 对比测试

作为一个实验性的版本,DeepSeek-V3.2-Exp 虽然已经在公开评测集上得到了有效性验证,但仍然需要在用户的真实使用场景中进行范围更广、规模更大的测试,以排除在某些场景下效果欠佳的可能。

为方便用户进行对比测试,我们为 DeepSeek-V3.1-Terminus 临时保留了额外的 API 访问接口。用户只需修改base_url=“https://api.deepseek.com/v3.1_terminus_expires_on_20251015” 即可访问 V3.1-Terminus,调用价格与 V3.2-Exp 相同。该接口将保留到北京时间 2025 年 10 月 15 日 23:59,更详细的使用方法请参考官方文档 https://api-docs.deepseek.com/zh-cn/guides/comparison_testing。

通过修改 base_url,您可以控制访问的模型版本:

  • 当您使用原来的方式访问 API 时,访问到的是 DeepSeek-V3.2-Exp 模型
  • 当您设置 base_url=“https://api.deepseek.com/v3.1_terminus_expires_on_20251015” 时,访问到的是 DeepSeek-V3.1-Terminus 模型

base_url 设置与具体模型的对应关系见下表:

API 类型base_url 设置模型版本
OpenAIhttps://api.deepseek.comDeepSeek-V3.2-Exp
Anthropichttps://api.deepseek.com/anthropicDeepSeek-V3.2-Exp
OpenAIhttps://api.deepseek.com/v3.1_terminus_expires_on_20251015DeepSeek-V3.1-Terminus
Anthropichttps://api.deepseek.com/v3.1_terminus_expires_on_20251015/anthropicDeepSeek-V3.1-Terminus

使用示例
使用 OpenAI 兼容 API 访问 V3.1-Terminus

# Please install OpenAI SDK first: `pip3 install openai`
import os
from openai import OpenAIclient = OpenAI(api_key=os.environ.get('DEEPSEEK_API_KEY'),base_url="https://api.deepseek.com/v3.1_terminus_expires_on_20251015")response = client.chat.completions.create(model="deepseek-chat",messages=[{"role": "system", "content": "You are a helpful assistant"},{"role": "user", "content": "Hello"},],stream=False
)print(f"Model is: {response.model}")
print(f"Output is: {response.choices[0].message.content}")

样例输出

Model is: deepseek-v3.1-terminus
Output is: Hello! How can I help you today?

如样例输出所示,您可以通过 API 返回中的 model 字段,验证所调用的模型是否为 V3.1-Terminus。


引用

@misc{deepseekai2024deepseekv32,title={DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention}, author={DeepSeek-AI},year={2025},
}

欢迎关注【人工智能通识专栏】原创作品
Created:2025-09

http://www.dtcms.com/a/423780.html

相关文章:

  • 一文详解LLM Agent
  • 京东商品 SKU 信息接口技术干货:数据拉取、规格解析与字段治理(附踩坑总结 + 可运行代码
  • 深入浅出:C++ 链表完全指南
  • NumPy 与 Pandas 的详细应用(含实例)
  • 2345浏览器网页版入口中文版合肥seo优化公司
  • 网站建设报价包括哪些学校网站建设电话
  • 音视频编解码全流程之用Extractor后Muxer生成MP4
  • 高德地图实现经纬度及获取编码、所属行政区、GIS
  • wordpress 扁平化新站seo快速排名 排名
  • 2025年在招投标及竞品信息采集机器人领域,主流RPA全面解析
  • 电子商务网站建设与管理期末考试网站开发方案案例
  • Node.js命令行工具开发
  • 《面向物理交互任务的触觉传感阵列仿真》2020AIM论文解读
  • 未来最紧缺的十大专业seo优化师
  • OCP证书考试难度怎么样?
  • Vue3 defineModel === 实现原理
  • 唐山营销型网站建设2023新闻头条最新消息今天
  • 计算机网络---传输层
  • 如何在阿里云上做网站制作软件的手机软件
  • 深入理解 Java 虚拟机:从原理到实践的全方位剖析
  • 网站谷歌seo做哪些凌点视频素材网
  • 手机app应用网站C语言做网站需要创建窗口吗
  • uniapp 安卓FTP上传下载操作原生插件
  • 国外知名平面设计网站黄骅打牌吧
  • C++ I/O流与文件操作速查
  • 网站制作哪家好又便宜做电商网站的流程
  • 网络边界突围:运营商QoS限速策略
  • 【笔记】在WPF中Decorator是什么以及何时优先考虑 Decorator 派生类
  • [算法练习]Day 4:定长滑动窗口
  • 外汇交易网站开发做网站前端后台