当前位置：首页 > news >正文

DeepSeek-R1学习

news 2025/7/1 20:58:09

摘要

推出了第一代推理模型reasoning model：DeepSeek-R1-Zero and DeepSeek-R1。Zero版预训练之后没有SFT，而是直接进行RL训练，其表现出强大的推理能力，但是存在可读性较差，语言混杂的问题。为了处理这个问题，并进一步增强性能，推出DeepSeek-R1，其在RL之前使用了多阶段训练和冷启数据，实现与OpenAI-o1-1217可比的性能，并使用R1蒸馏了Qwen和LLama的小模型。

1. 引言

post-training已经是大模型全链路训练pipeline的重要组件，它可以改进任务的准确率、对齐社会价值、适配用户偏好。open AI的o1模型首次介绍了推理时间scale，通过增加思维链推理过程的长度，这种方法显著改进了各种推理任务的能力，例如数学、code、科学推理。然而有效的测试时间scale仍然是研究社区的开放性问题。先前的工作探索了各种方法：基于过程的奖励模型、RL、蒙特卡诺树搜索和beam search等搜索算法。然而这些方法没有一个能实现与OpenAI o1类似的性能。

（介绍R1-Zero）
本文中，在第一步仅使用RL改进语言模型的推理能力，目标是在不使用任何监督数据，而是仅通过纯RL过程关注自身进化的情况下来探索LLM产生推理能力的潜力。具体地，使用DeepSeek-V3-Base作为base模型，使用DeepSeekMath中提出的GRPO作为强化学习框架来改进推理性能。训练中，DeepSeek-R1-Zero自然涌现出各种强大和有趣的推理行为。在几千个RL step后，在推理benchmark上展现出优异性能，例如在AIME 2024上的pass@1分数从15.6%增加到71.0%，如果继续使用多数投票，可以进一步提升到86.7%，与o1性能接近。

（介绍DeepSeek-R1：两个SFT过程和GRPO过程）
在这里插入图片描述

然而R1-Zero存在可读性差和语言混乱等问题，为解决这些问题并进一步增强推理性能，我们推出了DeepSeek-R1，其融入了少量冷启动数据和多阶段训练pipeline。具体地，

首先收集了几千条冷启数据来微调DeepSeek-V3-Base模型【SFT-1】。
之后，执行GRPO过程（为了产生SFT数据）【GRPO-1】，直到近似收敛，使用RL checkpoint执行拒绝采样得到数据，并联合DeepSeek-V3的监督数据共同组成了一个SFT数据集。
使用SFT数据微调后【SFT-2】，继续使用额外的RL过程【GRPO-1】，考虑所有场景的提示。

这些步骤之后，得到DeepSeek-R1。
PS：直接GRPO会有问题，于是前置执行SFT，SFT数据哪里来，V3的数据和另一个RL训练模型拒绝采样的数据（全部数据已经提到会有R1-Zero存在的问题，因此需要过滤）

进一步探索对更小稠密模型的蒸馏。以Qwen2.5-32B作为base，使用R1直接蒸馏比应用RL好，这说明更大模型学得的推理模式能改进小模型的推理能力（相比与直接RL，更能改进）。值得注意，蒸馏的14B打败了开源SOTA的QwQ-32B-Preview。

1.1 贡献

后训练：base模型上的大规模强化学习

对base模型直接使用RL而不依赖SFT作为初始步。使用这种方法探索模型解决复杂问题的思维链，并产生DeepSeek-R1-Zero。该模型证实了有自验证、反思、产生长思维链的能力，这是开源社区的重要里程碑。值得注意地，它是第一个开源研究来验证LLM的推理能力可以被纯RL激发。
介绍了产生DeepSeek-R1的流水线，其融合了两个RL阶段旨在改进推理模式和对齐人类偏好，两个SFT阶段作为模型推理能力和非推理能力的种子。

蒸馏：小模型也可以很强大

证实了大模型的推理模式可以蒸馏进更小的模型，相比直接在小模型上使用RL，可以实现更好的性能。
使用R1产生的推理数据，微调了几个dense模型，推理性能均有大幅提升。

1.2 评估结果总结

各种推理benchmark和知识benchmark上的结果。。
其他：各种任务上均有不错性能，AlpacaEval 2.0评测平台上胜率87.6%

2. 方法论

2.1 总览

之前的工作严重依赖大量的监督数据来增强模型性能，而本研究证实推理能力可以通过大规模强化学习显著改进，甚至不需要SFT作为冷启。此外，性能可以进一步强化通过融入一小部分冷启数据。接下来介绍 (1) DeepSeek-R1-Zero，直接对base模型使用使用RL而不使用任何SFT数据；(2) DeepSeek-R1，先从几千条长思维链样本微调模型，随后使用RL；(3) 将R1的推理能力蒸馏到小的dense模型。

2.2 DeepSeek-R1-Zero：base模型上的强化学习

RL已经被证实在推理任务中有显著的有效性，我们之前的工作就是一个证明。然而这些工作严重依赖需要耗时收集的监督数据。在本节中我们不借助任何监督数据，而是通过纯强化学习的自进化来探索LLM显现推理能力的潜能。我们先从RL算法的简要概述开始，随后展示令人兴趣的结果，希望这些能给社区提供有价值的见解。

2.2.1 强化学习算法

Group Relative Policy Optimization组相对策略优化。为了节省RL的训练开销，我们采用GRPO，其放弃了一般和策略模型一样大小的Critic模型，取而代之的是使用组内分数评估基线。
待补充GRPO与PPO的差异、策略模型的优化目标。基本原理：样本奖励减去组内奖励均值，并除以标准差来替换PPO中使用的GAE。

2.2.2 奖励模型

奖励是训练信号的来源，决定着RL的优化方向。为了训练DeepSeek-R1-Zero，我们采用了一种基于规则的奖励系统，其主要包含两种类型的奖励：

准确性奖励：准确性奖励模型评估回复是否是正确的。例如，在具体确定性结果的数学问题中，模型需要以一种特定的格式（例如在方框内）提供最终的结果，从而能够通过可靠的基于规则的方法验证答案的正确性。类似地，对于LeetCode编程问题，基于测试样例，编译器可以被用了产生反馈。
格式奖励：正确性奖励模型之外，我们应用格式奖励模型使得模型把它的思考过程放在标签<think>和</think>之间。
在开发DeepSeek-R1-Zero的过程中，我们没有应用结果或过程的神经奖励模型，因为我们发现神经奖励模型可能在大规模强化学习过程中遭遇奖励黑客问题，并且再训练一个奖励模型需要额外的训练资源，也会让整个训练流程变得复杂。

2.2.3 训练模版

为了训练DeepSeek-R1-Zero，我们首先设计了一个直接的模板来指导base遵循特定的指令。如表1所示，此模板要求R1-Zero模型先产生推理过程，随后才是最终回答。
A conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within and tags, respectively, i.e., reasoning process here answer here . User: prompt. Assistant:
我们故意将约束限制在这种结构化格式内，从而避免任何与内容相关的偏见——例如强制要求进行反思性推理或提倡特定的解决问题策略——以确保我们能够准确观察模型在强化学习过程中的自然进展。

2.2.4 DeepSeek-R1-Zero 的性能、自我进化过程与“顿悟时刻”Aha Moment

性能。图2描绘了R1-Zero在AIME 2024基准上的RL训练过程的性能轨迹曲线。如展示的那样，随着RL训练推进，R1-Zero有着稳定且持续的性能增强。值得注意地， AIME 2024上的pass@1均分显示了显著的增加，从最初的15.6%跳跃到71.0%，达到了Open-AI-o1-0912相近的性能水准。这一显著提升突显了我们RL算法在持续优化模型方面的有效性。
表2提供了DeepSeek-R1-Zero和OpenAI o1在一系列推理相关的基准上的对比分析。研究结果表明，RL赋予DeepSeek-R1-Zero获得鲁棒的推理能力，而不需要监督微调数据。这是一个值得关注的成就，因为它突显了仅通过RL即能有效学习和泛化的模型能力。此外，通过多数投票的方法，R1-Zero的性能还能进一步增强。例如，当在AIME 2024基准上运用多数投票，R1-Zero的性能从71.0%提升到86.7%，因此超越了o1的性能。无论是否使用多数投票，R1-Zero取得如此有竞争力的能力，这凸显了其强大的基础能力以及在推理任务中进一步发展的潜力。

未完待续

查看全文

http://www.dtcms.com/a/73827.html