当前位置: 首页 > news >正文

DeepSeek-R1论文深度解析:纯强化学习如何引爆LLM推理革命?

技术突破:从“无监督”到“自主进化”的跨越

paper :https://arxiv.org/pdf/2501.12948

目录

  • 技术突破:从“无监督”到“自主进化”的跨越
  • 1 DeepSeek-R1-Zero: RL+noSFT
    • 1.1 R1-Zero: GRPO(Group Relative Policy Optimization)
    • 1.2 Prompt
    • 1.3 Reward
    • 1.4 Self-evolution “自我进化”
    • 1.5 Aha Moment “顿悟时刻”
  • 2 DeepSeek-R1 :Reinforcement Learning with Cold Start
  • 3 DeepSeek-Distill
  • 4 Unsuccessful Attempts
  • 5 总结
    • 5.1 纯强化学习(RL)革命:首次跳过SFT实现推理能力跃升
    • 5.2 性能吊打GPT-4 O1:数学与代码任务双冠王
    • 5.3 开源生态引爆硅谷:从学术圈到大众的破圈效应
    • 5.4 架构创新降本增效:打破算力封锁的性价比之王
    • 5.5 AGI新范式曙光:从“人工引导”到“自主进化”​


DeepSeek-R1-Zero: RL+noSFT
DeepSeek-R1: RL+CoT
DeepSeek-Distill: 蒸馏出小模型

1 DeepSeek-R1-Zero: RL+noSFT

      

1.1 R1-Zero: GRPO(Group Relative Policy Optimization)

  • 采样动作组:对于每个输入状态s,GRPO从当前策略θ中采样一组动作a1, a2, …, aG。这些动作基于策略模型的概率分布进行采样,确保了多样性。

  • 奖励评估:每个采样动作都会通过一个奖励函数进行评估,得到对应的奖励值r(a)。奖励函数可以根据具体任务设计,例如在数学推理任务中,奖励函数可以基于答案的正确性

  • 计算相对优势:将每个动作的奖励值进行归一化处理,得到相对优势A^i,j。这一步骤可以通过以下公式完成:
    在这里插入图片描述

  • 策略更新:根据计算得到的相对优势,更新策略模型的参数θ。更新的目标是增加具有正相对优势的动作的概率,同时减少具有负相对优势的动作的概率。GRPO目标函数如下
    在这里插入图片描述
          目标函数是数学期望
          min确保更新项不会太大和clip限制了概率比在1−ϵ 和1+ϵ 之间
          Ai控制了相对优势函数
          KL 散度约束控制新旧策略的差异,确保更新稳定(注意此处的Π_ref是参考模型指的是一个不可训练的模型,而Π_old是旧策略)

  • KL散度约束:为了防止策略更新过于剧烈,GRPO在更新过程中引入了KL散度约束。通过限制新旧策略之间的KL散度,确保策略分布的变化在可控范围内(用于控制新旧策略之间的差异,确保策略更新的稳定性。)
    在这里插入图片描述

1.2 Prompt

在这里插入图片描述

用户与助手之间的对话。用户提出一个问题,然后助手解决它。助手首先在心里考虑推理过程,然后给用户提供答案。
推理过程和答案分别被<think> </think><answer> </answer>标签包围,
即<think> 这里的推理过程 </think> 
<answer> 这里的答案 </answer>。
用户:Prompt。助手:

具体示例如
在这里插入图片描述

1.3 Reward

Reward策略:R1-Zero的具体训练reward为纯粹的规则:

  • 准确性奖励:准确性奖励模型评估响应是否正确。例如,在数学问题中,如果结果是确定性的,模型需要以指定格式(例如,在一个框内)提供最终答案,以便进行可靠的基于规则的正确性验证。同样地,在LeetCode问题中,可以使用编译器根据预定义的测试用例生成反馈。
  • 格式奖励:除了准确性奖励模型外,使用一种格式奖励模型,该模型强制模型将其思考过程放在和标签之间。

总结R1-Zero 能够在不需要任何监督微调数据的情况下获得强大的推理能力。此外,DeepSeek-R1-Zero 的性能可以通过多数投票的方法进一步增强。例如,在使用多数投票应用于 AIME 基准测试时,DeepSeek-R1-Zero 的表现从 71.0% 提升到了 86.7%,从而超过了 OpenAI-o1-0912 的性能。

1.4 Self-evolution “自我进化”

在这里插入图片描述
Self-evolution “自我进化”:且在R1-Zero在训练过程中的思考时间和生成长度显示出持续的改进。这种改进不是外部调整的结果,而是模型内部发展的结果。通过扩展测试时间计算自然获得了解决越来越复杂的推理任务的能力。

1.5 Aha Moment “顿悟时刻”

在这里插入图片描述
Aha Moment “顿悟时刻”: 在模型的中间版本中,R1-Zero学会了通过重新评估其初始方法来分配更多的思考时间来解决问题

2 DeepSeek-R1 :Reinforcement Learning with Cold Start

在R1-Zero的成功下激发了两个自然的问题:
(1) 通过在冷启动阶段加入少量高质量数据能否进一步提高推理性能或加速收敛?
(2) 如何训练一个不仅能够生成清晰连贯的思维链(CoT),而且具备强大通用能力的用户友好型模型?

阶段1:Cold Start

  • 方法:收集并使用少量高质量的长思维链数据对模型进行微调作为初始的RL执行者。
  • 数据收集方式:包括少样本提示、直接要求模型生成详细的答案(含反思和验证)、收集DeepSeek-R1-Zero输出并进行后处理等。

阶段2:Reasoning-oriented RL 面向推理的强化学习

  • 在冷启动数据上微调DeepSeek-V3-Base之后,应用大规模强化学习训练过程。
  • 强调提升模型在编码、数学、科学和逻辑推理等任务中的推理能力。
  • 引入语言一致性奖励以减少多语言混合问题,并将准确性奖励和语言一致性奖励结合形成最终奖励。

阶段3:拒绝采样和监督微调

  • 使用来自前一阶段RL训练检查点的数据进行SFT数据收集。
  • 扩展数据集,包括那些可以通过生成奖励模型评估的数据。
  • 对于非推理任务(如写作、事实问答等),重用DeepSeek-V3的部分SFT数据集。
  • 最终,使用大约80万样本的数据集对DeepSeek-V3-Base进行两轮微调。

阶段4:所有场景下的强化学习

  • 实施第二次强化学习阶段,旨在提高模型的帮助性和无害性同时细化其推理能力。
  • 对于推理数据,继续使用基于规则的奖励指导学习;对于一般数据,则依赖奖励模型捕捉人类偏好。
  • 强调总结部分的帮助性评估以及整个响应(包括思维过程和总结)的危害性评估。

3 DeepSeek-Distill

目标:让较小的开源模型(如Qwen和Llama系列)也能拥有类似DeepSeek-R1的强大推理能力。
方法:

  • 使用在DeepSeek-R1训练过程中整理出的80万样本对这些小型模型进行直接监督微调(SFT)。这里没有包含强化学习(RL)阶段,尽管引入RL可以显著提高模型性能。
  • 选择的基础模型包括不同规模的Qwen和Llama模型,例如Qwen2.5-Math-1.5B, Qwen2.5-Math-7B等,以及Llama-3.3-70B-Instruct,因为其推理能力略优于Llama-3.1版本。

4 Unsuccessful Attempts

在DeepSeek-R1的早期开发阶段,使用过 过程奖励模型(PRM)蒙特卡洛树搜索(MCTS)

  • PRM: 缺少细粒度数据和评判
    引导模型找到解决推理任务的更好策略。这种方法依赖于对中间步骤的细粒度奖励来指导模型进行优化。
    局限性:
    • 定义细粒度步骤的困难:在一般的推理过程中,明确界定一个细粒度步骤是具有挑战性的。
    • 中间步骤正确性的验证难题:判断当前的中间步骤是否正确是一个复杂的问题。自动标注可能无法得到满意的结果,而手动标注又不利于大规模应用。
    • 奖励黑客问题:一旦引入基于模型的PRM,不可避免地会导致奖励黑客现象,即模型可能会找到绕过奖励机制的方法。重新训练奖励模型需要额外的资源,并且会使整个训练流程变得复杂。
  • MCTS: 因文本复杂性无法训练出一个不断进度的Value Network
    局限性:
    • 受AlphaGo和AlphaZero启发,研究团队探索使用MCTS来增强测试时的计算可扩展性。该方法通过将答案分解为更小的部分,使模型能够系统地探索解决方案空间。
    • 搜索空间的巨大差异:与象棋等游戏相比,文本生成任务的搜索空间呈指数级增长。为了应对这一问题,团队设定了每个节点的最大扩展限制,但这可能导致模型陷入局部最优解。
    • 价值模型的重要性与难度:价值模型的质量直接影响到生成的质量,因为它指导着搜索过程的每一步。然而,训练一个细致的价值模型本身就是一个难点,这使得模型难以逐步改进。虽然AlphaGo的成功在于训练了一个不断进步的价值模型,但在DeepSeek-R1的设置中复制这一点非常困难,因为文本生成的复杂性更高。

5 总结

🔥 ​DeepSeek-R1凭什么引爆全球AI圈?五大核心突破解析 🔥

5.1 纯强化学习(RL)革命:首次跳过SFT实现推理能力跃升

DeepSeek-R1系列通过纯强化学习训练​(无需监督微调SFT),直接激发模型自主推理能力。其核心算法GRPO(组相对策略优化)​结合规则奖励(答案准确性+格式规范),让模型在数学竞赛AIME 2024中从15.6%准确率飙升至86.7%。更惊艳的是,R1-Zero(零样本RL训练)通过自我迭代涌现出“反思”能力,主动修复推理错误,验证了RL驱动的自主进化潜力。

5.2 性能吊打GPT-4 O1:数学与代码任务双冠王

在多项权威测试中,DeepSeek-R1以**97.3%**的Math-500准确率超越OpenAI-O1(96.6%),Codeforces编程任务表现与人类顶尖选手持平。其开源版本(如7B参数模型)在AIME 2024上达55.5%,碾压同规模竞品Qwen-Preview(32B参数仅42.0%)。这种“小模型大智慧”特性,为边缘计算场景提供低成本解决方案。

5.3 开源生态引爆硅谷:从学术圈到大众的破圈效应

​技术普惠:开源R1-Zero、R1及6个蒸馏模型(基于Qwen/Llama架构),推动推理技术从实验室走向工业界。
​社区狂潮:春节期间,连重庆二线城市的老百姓都在讨论R1原理,APP内置的“DeepThink”模式虽初期冷门,却成为后续爆款的伏笔。
​国际认可:Nature杂志称其为“中国廉价、开放的推理模型标杆”,Meta、英伟达等巨头争相接入。

5.4 架构创新降本增效:打破算力封锁的性价比之王

通过DeepSeek-MoE(混合专家架构)​、MLA(多头潜在注意力)​等技术,将训练成本压缩至OpenAI的1/5(R1训练成本5.58MvsO1的30M+)。结合FP8混合精度训练和DualPipe通信优化,在国产GPU上实现671B参数模型的稳定训练,突破西方技术封锁。

5.5 AGI新范式曙光:从“人工引导”到“自主进化”​

DeepSeek-R1证明:​强化学习可替代人工标注数据,推动推理能力从“人工设计”转向“自主涌现”。其多阶段训练框架(冷启动数据+SFT+RL)为AGI训练提供新思路,被硅谷视为“OpenAI神秘感失效后”的关键竞争点。

​结语
DeepSeek-R1的出名,不仅是技术突破的胜利,更是开源精神与工程化创新的胜利。正如“它重新定义了强推理模型的边界,让AGI触手可及。”

相关文章:

  • LeetCode[454]四数相加Ⅱ
  • 近期学习资料,尚未整理
  • Wpf Avalonia-实现中英文切换工程
  • VAE,以及概率分布的各种知识点
  • 抓包工具:fiddler和wireshark对比
  • Python Django入门(创建其他网页)
  • PreparedStatement 和 Statement 从 功能、性能、安全性、适用场景 等维度详细对比分析
  • 架构师面试(十九):IM 架构
  • 某视频的解密下载
  • 地理信息科学(GIS)专业的就业出路与转型新方向,传统就业领域VS新兴技术赛道
  • docker模拟Dos_SYN Flood拒绝服务攻击 (Ubuntu20.04)
  • MyBatis 的一次缓存与二次缓存
  • 任务型多轮对话(二)| 意图识别
  • pta 乐子人游戏
  • 调用feapder作为子程序时setting.py文件不起作用
  • C++标准库新部件:解锁编程新姿势
  • win注册表提示没有权限进行修改的解决方式
  • (十)方法的定义 方法的作用域
  • 玩客云 armbian 安装mqtt服务端
  • 关于IPC sensor条纹问题分析
  • 先去上海后赴北京,苏中城市泰州为何接连拥抱顶流“大城”?
  • 人物|德国新外长关键词:总理忠实盟友、外交防务专家、大西洋主义者
  • 亚马逊拟为商品标注“关税成本”,特朗普致电贝索斯讨说法
  • 关于新冠疫情防控与病毒溯源的中方行动和立场
  • 新质观察|重塑低空经济的系统安全观
  • 柳州警方通报临牌车撞倒行人:扣留涉事车辆,行人无生命危险