当前位置：首页 > news >正文

DeepSeek-V3.2：DSA稀疏注意力的降本增效

news 2025/9/30 12:39:58

引言

之前看到 DeepSeek 发布了 DeepSeek-V3.1-Terminus，以为 V3 走到了尽头，下面应该发 V4 了。

然而，DeepSeek 在国庆前突然发布 DeepSeek-V3.2，这是一个小版本升级，新的内容不多，主要内容是在 V3.1-Terminus 的基础上引入了DSA（一种稀疏注意力机制）。

本文来详细阅读一下。

论文标题：DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention

论文地址：https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

这篇文章除去参考论文外，正文才 5 页，不像其它文章从“背景”还是讲故事，上来就直接开始讲具体方法，简明扼要，阅读友好。

从文章的标题就可以看出，这篇文章的核心是它提出了一种新的稀疏注意力机制 DSA(DeepSeek Sparse Attention)，主要解决的是训练和推理的效率问题。

DSA 主要由两个部分组成：

闪电索引器会计算查询 token $ht∈Rdh_t \in \mathbb{R}^d$ 与先前 token $hs∈Rdh_s \in \mathbb{R}^d$ 之间的索引分数 $I_{t,s}$ ，从而决定查询 token 需要选择哪些 token：

$I_{t,s} = \sum_{j=1}^{H_I} w^I_{t,j} \cdot \text{ReLU}\left(q^I_{t,j} \cdot k^I_s\right)$

其中：

$H_I$ 表示索引器的头数；
$qt,jI∈RdIq^I_{t,j} \in \mathbb{R}^{d_I}$ 和 $wt,jI∈Rw^I_{t,j} \in \mathbb{R}$ 由查询 token $h_t$ 派生；
$ksI∈RdIk^I_s \in \mathbb{R}^{d_I}$ 由先前 token $h_s$ 派生。

由于闪电索引器的头数较少，并且可用 FP8 实现，因此它的计算效率非常高。

在获得每个查询 token $h_t$ 的索引分数 ${I_{t,s}\}$ 后，细粒度 token 选择机制只会检索 top-k 的 key-value 条目 ${c_s\}$ 。

然后，通过将查询 token $h_t$ 与选出的稀疏 key-value 条目计算注意力，得到注意力输出：

$u_t = \text{Attn}\Big(h_t, \{c_s \mid I_{t,s} \in \text{Top-k}(I_{t,:})\}\Big)$

为了能够在 DeepSeek-V3.1-Terminus 的基础上继续训练，DeepSeek-V3.2-Exp 中在 MLA 的基础上实现了 DSA。

其中，MLA 采用的是 MQA 模式，在这种模式下，每个潜在向量（即 MLA 的 key-value 条目）会在查询 token 的所有注意力头之间共享。

整个框架图如下图所示：

上面这段看着有点绕，需要回顾一下 MLA，才能理解清楚。

在标准 多头注意力 (MHA) 中，每个注意力头都会独立存储一份 Key 和 Value，如果上下文长度为 (L)，隐藏维度为 (d)，注意力头数为 (H)，则 KV 缓存的大小是：

$\times L \times d)$

在大模型和超长上下文场景下，这个显存/内存消耗非常惊人，成为部署和训练的瓶颈。

为了压缩 KV 缓存，MQA(Multi-Query Attention)直接让所有的注意力头共享一个同一个K、V，这样就把 KV 缓存的大小减小到 $1/ H$ ，但是这样做也会带来一定的性能损失。

此图来源于 DeepSeek-v2

GQA(Grouped-Query Attention)是将所有的注意力头分成g个组，每组共享同一对K、V。

因此，g = H 时，MHA = GQA； g = 1 时，MQA = GQA。

MLA 的核心思想是将所有注意力头的 Key 和 Value 映射到一个 共享的低秩潜在空间 （latent space），和 VAE 的思路有点相似。

MLA结构图，此图来源于 DeepSeek-v2

如图所示，具体的计算流程如下：

输入隐藏状态 (h_t)
- 输入的隐层表示会被映射到两个潜在空间：
  - Latent ( $ctQc^Q_t$ ) （Query 潜在向量）
  - Latent ( $ctKVc^{KV}_t$ ) （Key/Value 潜在向量）
Query 路径
- 从 ( $ctQc^Q_t$ ) 生成两类 Query：
  - 内容相关的 Query：( $qt,iC{q^C_{t,i}}$ )
  - 位置相关的 Query：( $qt,iR{q^R_{t,i}}$ )，并施加 RoPE 旋转位置编码
- 两者拼接后形成最终的 Query 表示 ( $[;qt,iC;qt,iR;][;q^C_{t,i}; q^R_{t,i};]$ )。
Key/Value 路径
- 从 ( $ctKVc^{KV}_t$ ) 生成：
  - 内容相关的 Key/Value：( $kt,iC,vt,iC{k^C_{t,i}, v^C_{t,i}}$ )
  - 位置相关的 Key：( $ktRk^R_t$ )，并施加 RoPE
- 拼接得到最终的 Key 表示 ( $[;kt,iC;ktR;][;k^C_{t,i}; k^R_t;]$ )。
Multi-Head Attention
- 最终的注意力是标准的 MHA，但输入不是原始的 KV，而是来自 共享潜在空间解码出来的 KV，通过这种方式能够有效减少 KV 缓存。

有一个小点需要注意，在 MLA 里：

MLA 的解决方式是单独引入 $(ktR)(k^R_t)$ ：

MLA 把 Key 拆成 内容 Key ( $(kt,iC)(k^C_{t,i})$ ) 和 位置 Key ( $(ktR)(k^R_t)$ )；
( $ktRk^R_t$ ) 专门经过 RoPE 处理，负责携带位置信息；
最后拼接得到完整的 Key，拼接后的 Key 既有语义信息，又有位置信息。