当前位置：首页 > news >正文

从 “能打” 到 “顶尖”：DeepSeek-V3 后训练拆解，微调 + 强化学习如何让大模型脱胎换骨？

news 2025/7/26 15:48:40

注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

文章目录

GPT多模态大模型与AI Agent智能体系列三十八
- 从 “能打” 到 “顶尖”：DeepSeek-V3 后训练拆解，微调 + 强化学习如何让大模型脱胎换骨？
- - 更多技术内容
总结

GPT多模态大模型与AI Agent智能体系列三十八

从 “能打” 到 “顶尖”：DeepSeek-V3 后训练拆解，微调 + 强化学习如何让大模型脱胎换骨？

5. DeepSeek-V3 后训练拆解
5.1 监督微调
我们精心整理了指令调整数据集，包含 150 万个跨越多个领域的实例，每个领域根据其特定需求采用不同的数据创建方法。

推理数据：对于与推理相关的数据集，包括专注于数学、代码竞赛问题和逻辑谜题的数据集，我们利用内部的 DeepSeek-R1 模型生成数据。具体而言，虽然 R1 生成的数据具有很高的准确性，但存在过度思考、格式不佳和长度过长等问题。我们的目标是在 R1 生成的
推理数据的高准确性与常规格式推理数据的清晰简洁之间取得平衡。
为确立我们的方法，我们首先针对特定领域（如代码、数学或通用推理）开发一个专家模型，采用监督微调（SFT）和强化学习（RL）相结合的训练流程。这个专家模型作为最终模型的数据生成器。训练过程中，针对每个实例生成两种不同类型的 SFT 样本：第一种将问题与其原始答案以 <问题，原始答案> 的格式配对；第二种则在问题和 R1 答案的基础上，加入系统提示，格式为 < 系统提示，问题，R1 答案 >。
系统提示经过精心设计，包含引导模型生成带有反思和验证机制的答案的指令。在 RL 阶段，模型利用高温采样生成的答案，即使在没有明确系统提示的情况下，也能融合 R1 生成的数据和原始数据中的模式。经过数百次 RL 步骤后，中间 RL 模型学会融入 R1 模式，从而战略性地提升整体性能。
在完成 RL 训练阶段后，我们采用拒绝采样为最终模型筛选高质量的 SFT 数据，其中专家模型作为数据生成源。这种方法确保最终训练数据既保留了 DeepSeek-R1 的优势，又能生成简洁有效的答案。
非推理数据：对于非推理数据，如创意写作、角色扮演和简单问答，我们利用 DeepSeek-V2.5 生成答案，并邀请人工标注员验证数据的准确性和正确性。
SFT 设置：我们使用 SFT 数据集对 DeepSeek-V3 基础模型进行两轮微调，采用余弦退火学习率调度，从开始，逐渐降至。在训练过程中，每个单独的序列由多个样本打包而成。然而，我们采用样本掩码策略，以确保这些示例相互隔离且不可见。
5.2 强化学习
5.2.1 奖励模型

我们在 RL 过程中采用基于规则的奖励模型（RM）和基于模型的 RM。
基于规则的 RM：对于可以使用特定规则验证的问题，我们采用基于规则的奖励系统来确定反馈。例如，某些数学问题有确定的结果，我们要求模型以指定格式（如框内）给出最终答案，以便应用规则验证其正确性。同样，对于 LeetCode 问题，我们可以利用编译器根据测试用例生成反馈。只要有可能，我们就利用基于规则的验证，以确保更高的可靠性，因为这种方法不易被操纵或利用。
基于模型的 RM：对于具有自由格式标准答案的问题，我们依靠奖励模型来确定回答是否符合预期的标准答案。相反，对于没有明确标准答案的问题，如涉及创意写作的问题，奖励模型根据问题和相应答案作为输入提供反馈。奖励模型从 DeepSeek-V3 SFT 检查点进行训练。为增强其可靠性，我们构建偏好数据，不仅提供最终奖励，还包括得出奖励的思维链。这种方法有助于降低特定任务中奖励作弊的风险。
5.2.2 组相对策略优化
与 DeepSeek-V2（DeepSeek-AI, 2024c）类似，我们采用组相对策略优化（GRPO）（Shao 等人，2024），它摒弃了通常与策略模型大小相同的评论家模型，而是从组分数中估计基线。具体来说，对于每个问题，GRPO 从旧策略模型中采样一组输出，然后通过最大化以下目标来优化策略模型：
其中、是相关参数，是优势，由每组输出对应的奖励得出：
我们在 RL 过程中纳入来自不同领域（如编码、数学、写作、角色扮演和问答）的提示。这种方法不仅使模型更符合人类偏好，还提升了在基准测试中的性能，特别是在可用 SFT 数据有限的场景中。
5.3 评估
5.3.1 评估设置
评估基准：除了用于基础模型测试的基准外，我们还在 IFEval（Zhou 等人，2023）、FRAMES（Krishna 等人，2024）、LongBench v2（Bai 等人，2024）、GPQA（Rein 等人，2023）、SimpleQA（OpenAI, 2024c）、CSimpleQA（He 等人，2024）、SWE-Bench Verified（OpenAI, 2024d）、Aider 1、LiveCodeBench（Jain 等人，2024）（2024 年 8 月至 11 月的问题）、Codeforces 2、中国国家高中数学奥林匹克竞赛（CNMO 2024）3、美国数学邀请赛 2024（AIME 2024）（MAA, 2024）等基准上评估指令模型。
对比基线：我们对聊天模型与几个强大的基线进行全面评估，包括 DeepSeek-V2-0506、DeepSeek-V2.5-0905、Qwen2.5 72B Instruct、LLaMA-3.1 405B Instruct、Claude-Sonnet-3.5-1022 和 GPT-4o-0513。对于 DeepSeek-V2 模型系列，我们选择最具代表性的变体进行比较。对于闭源模型，通过它们各自的 API 进行评估。
详细评估配置：对于包括 MMLU、DROP、GPQA 和 SimpleQA 在内的标准基准，我们采用 simple-evals 框架 4 中的评估提示。对于 MMLU-Redux，我们在零样本设置下使用 Zero-Eval 提示格式（Lin, 2024）。对于其他数据集，我们遵循其原始评估协议，使用数据集创建者提供的默认提示。在代码和数学基准方面，HumanEval-Mul 数据集总共包含 8 种主流编程语言（Python、Java、Cpp、C#、JavaScript、TypeScript、PHP 和 Bash）。我们使用思维链（CoT）和非思维链方法评估模型在 LiveCodeBench 上的性能，其中数据收集于 2024 年 8 月至 11 月。Codeforces 数据集通过参赛者的百分比进行衡量。SWE-Bench verified 使用无代理框架（Xia 等人，2024）进行评估。我们使用 “diff” 格式评估与 Aider 相关的基准。对于数学评估，AIME 和 CNMO 2024 在温度为 0.7 的情况下进行评估，结果取 16 次运行的平均值，而 MATH-500 采用贪心解码。我们允许所有模型在每个基准上最多输出 8192 个 token。

	基准（指标）	DeepSeek-V2-0506	DeepSeek-V2.5-0905	Qwen2.5 72B-Inst	LLaMA-3.1 405B-Inst	Claude-3.5-Sonnet-1022	GPT-4o-0513	DeepSeek-V3
	架构	MoE	MoE	密集型	密集型	-	-	MoE
	激活参数数量	210 亿	210 亿	720 亿	4050 亿	-	-	370 亿
	总参数数量	2360 亿	2360 亿	720 亿	4050 亿	-	-	6710 亿
英语	MMLU（EM）	78.2	80.6	85.3	88.6	88.3	87.2	88.5
MMLU-Redux（EM）	77.9	80.3	85.6	86.2	88.9	88.0	89.1
MMLU-Pro（EM）	58.5	66.2	71.6	73.3	78.0	72.6	75.9
DROP（3-shot F1）	83.0	87.8	76.7	88.7	88.3	83.7	91.6
IF-Eval（Prompt Strict）	57.7	80.6	84.1	86.0	86.5	84.3	86.1
GPQA-Diamond（Pass@1）	35.3	41.3	49.0	51.1	65.0	49.9	59.1
SimpleQA（Correct）	9.0	10.2	9.1	17.1	28.4	38.2	24.9
FRAMES（Acc）	66.9	65.4	69.8	70.0	72.5	80.5	73.3
LongBench v2（Acc）	31.6	35.4	39.4	36.1	41.0	48.1	48.7
代码	HumanEval-Mul（Pass@1）	69.3	77.4	77.3	77.2	81.7	80.5	82.6
LiveCodeBench（Pass@1-Cor）	18.8	29.2	31.1	28.4	36.3	33.4	40.5
LiveCodeBench（Pass@1）	20.3	28.4	28.7	30.1	32.8	34.2	37.6
Codeforces（Percentile）	17.5	35.6	24.8	25.3	20.3	23.6	51.6
SWE Verified（Resolved）	22.6	23.8	24.5	50.8	38.8	42.0
Aider-Edit（Acc）	60.3	71.6	65.4	63.9	84.2	72.9	79.7
Aider-Polyglot（Acc）	18.2	7.6	5.8	45.3	16.0	49.6
数学	AIME 2024（Pass@1）	4.6	16.7	23.3	23.3	16.0	9.3	39.2
MATH-500（EM）	56.3	74.7	80.0	73.8	78.3	74.6	90.2
CNMO 2024（Pass@1）	2.8	10.8	15.9	6.8	13.1	10.8	43.2
中文	C-Eval（EM）	89.9	90.4	91.4	84.7	85.4	87.9	90.9
CLUEWSC（EM）	78.6	79.5	86.1	61.5	76.7	76.0	86.5
C-SimpleQA（Correct）	48.5	54.1	48.4	50.4	51.3	59.3	64.8
表 6 DeepSeek-V3 与其他代表性聊天模型的比较。所有模型均在输出长度限制为 8K 的配置下进行评估。包含少于 1000 个样本的基准使用不同温度设置进行多次测试，以得出可靠的最终结果。DeepSeek-V3 是性能最佳的开源模型，并且与前沿闭源模型相比也具有竞争力
5.3.2 标准评估
表 6 展示了评估结果，表明 DeepSeek-V3 是性能最佳的开源模型。此外，它与前沿闭源模型（如 GPT-4o 和 Claude-3.5-Sonnet）相比也具有竞争力。
英语基准：MMLU 是一个广泛认可的基准，用于评估大语言模型在不同知识领域和任务上的性能。DeepSeek-V3 表现出有竞争力的性能，与顶级模型（如 LLaMA-3.1-405B、GPT-4o 和 Claude-Sonnet 3.5）相当，同时显著优于 Qwen2.5 72B。此外，DeepSeek-V3 在 MMLU-Pro（一个更具挑战性的教育知识基准）上表现出色，与 Claude-Sonnet 3.5 非常接近。在 MMLU-Redux（MMLU 的改进版本，修正了标签）上，DeepSeek-V3 超过了其他同行。在 GPQA-Diamond（一个博士水平的评估测试平台）上，DeepSeek-V3 取得了显著的成绩，仅次于 Claude 3.5 Sonnet，并且大幅领先其他竞争对手。
在长上下文理解基准（如 DROP、LongBench v2 和 FRAMES）中，DeepSeek-V3 继续展示其顶级模型的地位。它在 DROP 的 3-shot 设置中取得了令人印象深刻的 91.6 F1 分数，超过了该类别中的所有其他模型。在 FRAMES（一个需要在 100k token 上下文上进行问答的基准）中，DeepSeek-V3 紧随 GPT-4o 之后，同时大幅领先其他模型。这展示了 DeepSeek-V3 在处理极长上下文任务方面的强大能力。DeepSeek-V3 的长上下文能力在 LongBench v2（在 DeepSeek V3 发布前几周发布的数据集）上的最佳性能进一步得到验证。在事实知识基准 SimpleQA 上，DeepSeek-V3 落后于 GPT-4o 和 Claude-Sonnet，这主要是由于其设计重点和资源分配。DeepSeek-V3 将更多训练 token 用于学习中文知识，因此在 C-SimpleQA 上表现出色。在指令跟随基准上，DeepSeek-V3 显著优于其前身 DeepSeek-V2 系列，突出了其在理解和遵守用户定义格式约束方面的改进能力。
代码和数学基准：编码是大语言模型面临的一项具有挑战性和实用性的任务，涵盖了像 SWE-Bench-Verified 和 Aider 这样的工程任务，以及像 HumanEval 和 LiveCodeBench 这样的算法任务。在工程任务中，DeepSeek-V3 落后于 Claude-Sonnet-3.5-1022，但显著优于开源模型。开源的 DeepSeek-V3 有望推动编码相关工程任务的进展。通过提供其强大的能力，DeepSeek-V3 可以在软件工程和算法开发等领域推动创新和改进，使开发者和研究人员能够拓展开源模型在编码任务中的能力边界。在算法任务中，DeepSeek-V3 展示了卓越的性能，在 HumanEval-Mul 和 LiveCodeBench 等基准上超过了所有基线。这一成功可归因于其先进的知识蒸馏技术，该技术有效地增强了其在算法相关任务中的代码生成和问题解决能力。
在数学基准上，DeepSeek-V3 展示了卓越的性能，显著超越基线，为非 o1 类模型树立了新的最先进水平。具体来说，在 AIME、MATH-500 和 CNMO 2024 上，DeepSeek-V3 的绝对得分比第二好的模型 Qwen2.5 72B 高出约 10%，对于如此具有挑战性的基准而言，这是一个巨大的差距。这一卓越能力突出了从 DeepSeek-R1 蒸馏知识的有效性，已证明这对非 o1 类模型非常有益。

模型 Arena-Hard AlpacaEval 2.0
DeepSeek-V2.5-0905 76.2 50.5
Qwen2.5-72B-Instruct 81.2 49.1
LLaMA-3.1 405B 69.3 40.5
GPT-4o-0513 80.4 51.1
Claude-Sonnet-3.5-1022 85.2 52.0
DeepSeek-V3 85.5 70.0

表 7 英文开放式对话评估。对于 AlpacaEval 2.0，我们使用长度控制胜率作为指标
5.3.3 开放评估
除了标准基准测试，我们还使用大语言模型作为评判者，对模型在开放式生成任务上进行评估，结果见表 7。具体来说，我们遵循 AlpacaEval 2.0（Dubois 等人，2024）和 Arena-Hard（Li 等人，2024a）的原始配置，利用 GPT-4-Turbo-1106 作为评判者进行两两比较。在 Arena-Hard 上，DeepSeek-V3 与基线 GPT-4-0314 相比，胜率超过 86%，与 Claude-Sonnet-3.5-1022 等顶级模型表现相当。这突出了 DeepSeek-V3 强大的能力，特别是在处理复杂提示（包括编码和调试任务）方面。此外，DeepSeek-V3 成为第一个在 Arena-Hard 基准上超过 85% 胜率的开源模型，这一成就显著缩小了开源模型和闭源模型之间的性能差距，为开源模型在具有挑战性的领域中设定了新的标准。
同样，DeepSeek-V3 在 AlpacaEval 2.0 上也展现出卓越的性能，超过了闭源模型和开源模型。这展示了它在写作任务和处理简单问答场景方面的出色能力。值得注意的是，它比 DeepSeek-V2.5-0905 的胜率高出 20%，这突出了它在处理简单任务方面的显著改进，也展示了其改进的有效性。
5.3.4 DeepSeek-V3 作为生成式奖励模型
我们将 DeepSeek-V3 的评判能力与最先进的模型（即 GPT-4o 和 Claude-3.5）进行比较。表 8 展示了这些模型在 RewardBench（Lambert 等人，2024）上的性能。DeepSeek-V3 的表现与 GPT-4o-0806 和 Claude-3.5-Sonnet-1022 的最佳版本相当，同时超过了其他版本。此外，DeepSeek-V3 的评判能力还可以通过投票技术得到增强。因此，我们使用 DeepSeek-V3 结合投票，为开放式问题提供自我反馈，从而提高对齐过程的有效性和稳健性。

模型 Chat Chat-Hard Safety Reasoning Average
GPT-4o-0513 96.6 70.4 86.7 84.9 84.7
GPT-4o-0806 96.1 76.1 88.1 86.6 86.7
GPT-4o-1120 95.8 71.3 86.2 85.2 84.6
Claude-3.5-sonnet-0620 96.4 74.0 81.6 84.7 84.2
Claude-3.5-sonnet-1022 96.4 79.7 91.1 87.6 88.7
DeepSeek-V3 96.9 79.8 87.0 84.3 87.0
DeepSeek-V3（maj@6） 96.9 82.6 89.5 89.2 89.6

表 8 GPT-4o、Claude-3.5-sonnet 和 DeepSeek-V3 在 RewardBench 上的性能

模型 LiveCodeBench-CoT MATH-500
Pass@1 Length Pass@1 Length
DeepSeek-V2.5 Baseline 31.1 718 74.6 769
DeepSeek-V2.5 +R1 Distill 37.4 783 83.2 1510

表 9 从 DeepSeek-R1 蒸馏知识的贡献。LiveCodeBench 和 MATH-500 的评估设置与表 6 相同
5.4 讨论
5.4.1 从 DeepSeek-R1 蒸馏知识
我们基于 DeepSeek-V2.5 对从 DeepSeek-R1 蒸馏知识的贡献进行了消融研究。基线模型在短思维链（CoT）数据上进行训练，而其竞争模型使用上述专家检查点生成的数据。
表 9 展示了蒸馏数据的有效性，在 LiveCodeBench 和 MATH-500 基准测试中都显示出显著的改进。我们的实验揭示了一个有趣的权衡：蒸馏带来了更好的性能，但也大幅增加了平均响应长度。为了在模型准确性和计算效率之间保持平衡，我们为 DeepSeek-V3 精心选择了蒸馏的最佳设置。
我们的研究表明，从推理模型中进行知识蒸馏为后训练优化提供了一个有前景的方向。虽然我们目前的工作主要集中在从数学和编码领域蒸馏数据，但这种方法在各种任务领域具有更广泛的应用潜力。在这些特定领域展示的有效性表明，长思维链蒸馏对于提高其他需要复杂推理的认知任务的模型性能可能是有价值的。进一步探索这种方法在不同领域的应用仍然是未来研究的一个重要方向。
5.4.2 自奖励
奖励在强化学习中起着关键作用，指导优化过程。在可以通过外部工具轻松验证的领域，如某些编码或数学场景中，强化学习表现出卓越的效果。然而，在更一般的场景中，构建有效的反馈机制具有挑战性。自奖励是一种有潜力的解决方案，它使模型能够根据自己的输出评估奖励。在 DeepSeek-V3 中，我们探索了使用模型自身的预测作为奖励信号的一部分。初步实验表明，这种方法在某些任务中可以提高模型的性能，但也面临着一些问题，如奖励信号的一致性和稳定性。未来的研究需要更深入地探讨如何设计有效的自奖励策略，以提高模型在各种场景下的性能。
5.4.3 多 token 预测评估
尽管多 token 预测（MTP）在训练过程中显示出提高模型性能的潜力，但在评估方面仍存在挑战。传统的评估指标（如准确率、F1 值等）可能无法充分捕捉 MTP 对模型能力的影响。例如，MTP 可能使模型生成更连贯和准确的长文本，但这些改进可能不会直接反映在标准评估指标中。此外，MTP 的训练目标与实际应用中的推理场景之间存在差异，这也给评估带来了困难。我们需要开发新的评估方法，能够更好地衡量 MTP 对模型性能的影响，特别是在长文本生成和复杂任务处理方面。这将有助于更准确地评估模型的能力，并指导未来的模型改进。

总结

此文章有对应的配套新书教材和视频：

【配套新书教材】
《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】
新书特色：《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）是一本2025年清华大学出版社出版的图书，作者是陈敬雷，本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章，从大模型技术原理切入，逐步深入大模型训练及微调，还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体，从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面，本书提供了丰富的案例分析，如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人，以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用，也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读，也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统，既有理论知识的深入讲解，也有大量的实践案例和代码示例，能够帮助学生在掌握理论知识的同时，培养实际操作能力和解决问题的能力。通过阅读本书，读者将能够更好地理解大模型技术的前沿发展，并将其应用于实际工作中，推动人工智能技术的进步和创新。

【配套视频】

清华《GPT多模态大模型与AI Agent智能体》书籍本章配套视频【陈敬雷】
视频特色： 前沿技术深度解析，把握行业脉搏
揭秘 DeepSeek、Sora、GPT-4 等多模态大模型的技术底层逻辑，详解 Transformer 架构如何突破传统神经网络局限，实现长距离依赖捕捉与跨模态信息融合。
对比编码预训练（BERT）、解码预训练（GPT 系列）及编解码架构（BART、T5）的技术差异，掌握大模型从 “理解” 到 “生成” 的核心逻辑。
实战驱动，掌握大模型开发全流程
提示学习与指令微调：通过 Zero-shot、Few-shot 等案例，演示如何用提示词激活大模型潜能，结合 LoRA 轻量化微调技术，实现广告生成、文本摘要等场景落地（附 ChatGLM3-6B 微调实战代码）。
人类反馈强化学习（RLHF）：拆解 PPO 算法原理，通过智谱 AI 等案例，掌握如何用人类偏好优化模型输出，提升对话系统的安全性与实用性。
智能涌现与 AGI 前瞻，抢占技术高地
解析大模型 “智能涌现” 现象（如上下文学习、思维链推理），理解为何参数规模突破阈值后，模型能实现从 “量变” 到 “质变” 的能力跃升。
前瞻通用人工智能（AGI）发展趋势，探讨多模态模型（如 Sora）如何推动 AI 从 “单一任务” 向 “类人智能” 进化，提前布局未来技术赛道。

上一篇：《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇：DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析：支撑万亿参数模型的幕后英雄

查看全文

http://www.dtcms.com/a/298752.html