当前位置：首页 > news >正文

DeepSeek R1 模型在架构上的优势

news 2025/8/26 5:45:45

输入上下文长度：继承了其基础模型 DeepSeek-V3-Base 的 128K 上下文长度。最初，DeepSeek-V3 使用 4K 上下文长度进行预训练，然后利用 YaRN 技术，通过两阶段的上下文长度扩展，先将其增加到 32K，再增加到 128K。YaRN 技术能有效扩展使用旋转位置嵌入（RoPE）的大语言模型（LLM）的上下文窗口，它修改了旋转频率的缩放方式，能更好地推广到更长的上下文，且在计算上高效，无需大量重新训练即可扩展模型上下文长度。
总层数：由一个嵌入层、61 个 Transformer 层和输出阶段的多个预测头组成。在所有 Transformer 层中采用多头潜在注意力（MLA）层，而不是标准多头注意力。前三个 Transformer 层与其余层不同，使用标准的前馈网络（FFN）层，从第 4 层到第 61 层，混合专家（MoE）层取代了 FFN 层。
多头潜在注意力（MLA）：是在 DeepSeek-V2 中引入并延续到 DeepSeek-V3 和 DeepSeek-R1 的创新注意力机制。传统的 Transformer 模型通常采用多头注意力机制（MHA），但在生成过程中其键值（KV）缓存会成为限制推理效率的瓶颈。为减少 KV 缓存，提出了多查询注意力（MQA）和分组查询注意力（GQA），它们所需的 KV 缓存量级较小，但性能不如 MHA。而 MLA 配备了低秩键值联合压缩，性能优于 MHA，但所需的 KV 缓存量显著减少。具体来说，MLA 对注意力键和值进行低秩联合压缩，以减少推理过程中的键值（KV）缓存。步骤如下：
- Q、K 和 V 的下投影：权重矩阵生成的 Q、K 和 V 的维度明显小于输入，例如输入形状为（序列长度×2000），生成的 Q、K 和 V 形状可能为（序列长度×100）。在实施过程中，通常会融合 Q、K 和 V 的权重矩阵，以提高 GPU 上的计算和内存效率。
- Q、K 和 V 的上投影：压缩后，Q、K 和 V 会被上投影回更大的尺寸以进行注意力计算，这个更大的尺寸可以匹配原始输入，也可以遵循基于注意力头配置的结构。
- 在 Q 和 K 中添加 RoPE 嵌入以编码位置信息：用于计算 RoPE 嵌入来编码位置信息，采用解耦的 RoPE 方法来整合位置信息，涉及创建专门用于携带位置信息的额外查询（Q）和键（K）向量，然后将这些增强了 RoPE 的 Q 和 K 向量与上投影后的 Q 和 K 向量拼接。
强化学习（RL）为主：通过强化学习直接从基础模型中激发推理能力，甚至无需监督微调（SFT）。例如，在 MATH-500 测试中，准确率达 97.3%，超越 OpenAI o1-1217（96.8%）。创新点包括支持“思维链”输出，展示推理过程，增强透明度和可信度。此外，在强化学习中采用自研算法 GRPO（组相对策略优化），直接根据一组样本的相对奖励计算优势估计，避免了价值模型的计算，提高训练效率并降低成本。
采用动态门控机制优化推理：基于 V3 架构，引入动态门控机制，进一步优化推理过程。
知识蒸馏：在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时，通过其输出，蒸馏了 6 个小模型开源给社区，其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。