当前位置：首页 > news >正文

DeepSeek-V3 论文总结

news 2025/10/21 10:56:33

文章目录

Abstract
1. Introduction
2. Architecture
- 2.1 Basic Architecture
- 2.2 Multi-Token Prediction
3. Infrastructures
- 3.1 Compute Clusters
- 3.2 Training Framework
- 3.3 FP8 Training
4. Pre-Training
- 4.1 Data Construction
- 4.2 Hyper-Parameters
- 4.3 Long Context Extension
- 4.4 Evaluations
5. Post-Training
- 5.1 Supervised Fine-Tuning
- 5.2 Reinforcement Learning
- 5.3 Evaluations
6. Conclusion, Limitations, and Future Directions

DeepSeek-V3 论文

Abstract

本文介绍了 DeepSeek-V3，这是一个拥有 6710 亿总参数的混合专家（MoE）语言模型，每次激活 370 亿参数。为了实现高效的推理和成本效益的训练，DeepSeek-V3 采用了多头潜在注意力（MLA）和 DeepSeekMoE 架构，并引入了无辅助损失的负载均衡策略以及多令牌预测训练目标。DeepSeek-V3 在 14.8 万亿个高质量、多样化的令牌上进行预训练，随后经过监督式微调和强化学习阶段，以充分发挥其能力。全面评估表明，DeepSeek-V3 的性能优于其他开源模型，并且与领先的闭源模型相当。尽管性能出色，但 DeepSeek-V3 的完整训练仅需 278.8 万 H800 GPU 小时，训练过程极为稳定，未出现任何不可恢复的损失峰值或回滚操作。模型检查点可在 GitHub 上找到。

1. Introduction

近年来，大型语言模型（LLMs）迅速迭代和演变，逐渐缩小与人工通用智能（AGI）的差距。除了闭源模型外，开源模型也在努力追赶。为了进一步提升开源模型的能力，我们推出了 DeepSeek-V3，这是一个拥有 6710 亿参数的 MoE 模型，每次激活 370 亿参数。DeepSeek-V3 在架构上采用了 MLA 和 DeepSeekMoE，并引入了无辅助损失的负载均衡策略以及多令牌预测训练目标，以提升模型性能。此外，DeepSeek-V3 支持 FP8 混合精度训练，并通过训练框架的优化，实现了高效的训练和推理。

2. Architecture

DeepSeek-V3 的基本架构基于 Transformer 框架，采用 MLA 和 DeepSeekMoE，以实现高效的推理和经济的训练。此外，DeepSeek-V3 还引入了无辅助损失的负载均衡策略和多令牌预测训练目标。

2.1 Basic Architecture

DeepSeek-V3 的基本架构包括多头潜在注意力（MLA）和 DeepSeekMoE。MLA 通过低秩联合压缩注意力键和值，减少了推理过程中的 KV 缓存。DeepSeekMoE 则通过引入更细粒度的专家和共享专家，优化了训练效率。与传统 MoE 架构不同，DeepSeek-V3 使用无辅助损失的负载均衡策略，通过动态调整专家的偏置项，确保负载均衡，同时避免了辅助损失对模型性能的负面影响。

2.2 Multi-Token Prediction

受 Gloeckle 等人（2024 年）的启发，DeepSeek-V3 采用了多令牌预测（MTP）训练目标，扩展了每个位置的预测范围，以预测多个未来令牌。MTP 通过增加训练信号的密度，可能提高数据效率，并使模型能够更好地规划其表示，以预测未来令牌。

3. Infrastructures

DeepSeek-V3 的训练依赖于高效的计算集群和训练框架。我们采用了 HAI-LLM 框架，并实现了多项工程优化，以支持大规模 MoE 模型的训练。

3.1 Compute Clusters

DeepSeek-V3 在一个包含 2048 个 NVIDIA H800 GPU 的集群上进行训练，节点之间通过 InfiniBand（IB）和 NVLink 互联。

3.2 Training Framework

DeepSeek-V3 的训练框架采用了 16 路流水线并行、64 路专家并行和 ZeRO-1 数据并行。我们设计了 DualPipe 算法，通过重叠计算和通信阶段，减少了流水线气泡，并实现了高效的跨节点 MoE 训练。

3.3 FP8 Training

DeepSeek-V3 引入了 FP8 混合精度训练框架，通过细粒度量化和高精度累加策略，扩展了 FP8 格式的动态范围，实现了高效的训练。

4. Pre-Training

DeepSeek-V3 在 14.8 万亿个高质量、多样化的令牌上进行预训练，采用了多阶段上下文扩展和监督式微调，以提升模型性能。

4.1 Data Construction

预训练语料库经过优化，增加了数学和编程样本的比例，并扩展了多语言覆盖范围。数据处理流程经过改进，以减少冗余并保持语料库的多样性。

4.2 Hyper-Parameters

DeepSeek-V3 的 Transformer 层为 61 层，隐藏维度为 7168。模型使用了 128 个注意力头，每个头的维度为 128。MLA 的 KV 压缩维度为 512，查询压缩维度为 1536。MoE 层包含 1 个共享专家和 256 个路由专家，每个令牌激活 8 个专家。

4.3 Long Context Extension

DeepSeek-V3 通过两阶段扩展训练，将上下文窗口从 4K 扩展到 32K，再扩展到 128K，以支持长文本输入。

4.4 Evaluations

DeepSeek-V3 在多个基准测试中表现出色，尤其是在代码和数学领域。其性能优于其他开源模型，并与领先的闭源模型相当。

5. Post-Training

DeepSeek-V3 的后训练阶段包括监督式微调和强化学习，以进一步提升模型性能。

5.1 Supervised Fine-Tuning

我们为 DeepSeek-V3 准备了包含 150 万实例的指令微调数据集，覆盖多个领域。

5.2 Reinforcement Learning

我们采用了基于规则的奖励模型和基于模型的奖励模型，结合组相对策略优化（GRPO），以提升模型性能。

5.3 Evaluations

DeepSeek-V3 在多个标准和开放式基准测试中表现出色，尤其是在代码和数学领域。其性能优于其他开源模型，并与领先的闭源模型相当。

6. Conclusion, Limitations, and Future Directions

DeepSeek-V3 是目前最强的开源模型之一，其性能与领先的闭源模型相当，同时保持了经济的训练成本。尽管如此，DeepSeek-V3 仍存在一些局限性，例如部署单元较大，可能对小型团队造成负担。未来，我们将继续研究和改进模型架构，探索更高效的训练和推理方法，并扩展模型的推理能力和数据规模。

http://www.dtcms.com/a/36634.html

相关文章：

React进阶之React核心源码解析（三）

Jtti.cc:站群服务器SEO优化建议，如何分配多IP？

Java进阶：SpringMVC中放行静态资源

Go小技巧易错点100例（二十二）

Spring Boot 与 MyBatis 数据库操作

【Java】I/O 流篇 —— 缓冲流

什么是以知识为中心的服务（KCS）？最佳实践是什么？

STM32+ESP8266局域网通信

【Java项目】基于Spring Boot的交流互动系统

【工欲善其事】2025 年实现听书自由——基于 Kokoro-82M 的开源 TTS 工具 audiblez 本地部署实战

AI多模态梳理与应用思考｜从单文本到多视觉的生成式AI的AGI关键路径

msc2n修改物料有效期

【算法】 ‘abb‘ 型子序列问题——前后缀分解 python

【红队利器】单文件一键结束火绒6.0

2025最新最全【大模型学习路线规划】零基础入门到精通_大模型开发学习路线

C语言 —— 此去经年应是良辰好景虚设 - 函数

Deepseek 实战全攻略，领航科技应用的深度探索之旅

R Excel 文件：高效数据处理的利器

基于SpringBoot+mybatisplus+vueJS的高校选课系统设计和实现

[AI]【Comfyui】生成基本流程图的步骤保姆记录

华为2025年技术发布会：智能汽车核心技术大爆发

Go 之语言基本类型

从0-1学习Mysql第三章: 数据类型

基于Spring Boot的健康医院门诊在线挂号系统设与实现（LW+源码+讲解）

angular新闻列表分页

WPS计算机二级•文档的页面设置与打印

Spring参数的问题

P8597 [蓝桥杯 2013 省 B] 翻硬币

vue3中的watch

R语言学习笔记——确定指标权重：层次分析法/熵权法/CRITIC方法