当前位置: 首页 > news >正文

DeepSeek-V3到DeepSeek-R1的演进

在这里插入图片描述


在这里插入图片描述

从DeepSeek-V3到DeepSeek-R1的演进分为两个阶段:R1-Zero阶段R1阶段,具体技术路径如下:


一、从V3到R1-Zero(纯强化学习阶段)

目标:不依赖任何监督微调(SFT)数据,直接通过强化学习激活推理能力。
关键技术步骤

  1. 基于规则的奖励设计

    • 抛弃传统神经奖励模型(RM),采用双奖励机制
      • 答案正确性奖励:根据数学/代码题答案的客观准确性计算。
      • 格式正确性奖励:强制输出符合特定标签格式(如<think><answer>分段)。
    • 优势:避免“奖励劫持”(Reward Hacking),提升训练稳定性。
  2. GRPO算法训练

    • 群体相对策略优化(GRPO)
      • 对每个问题生成16组回答(Group Size=16),计算组内奖励的均值和标准差。
      • 归一化奖励:将每个回答的奖励减去均值并除以标准差,生成相对优势信号。
      • 优化目标:最大化策略的期望奖励,同时通过KL散度约束防止策略偏离初始模型。
    • 工程优化:采用动态截断的KL散度计算(k3 KL估计),避免蒙特卡洛估计的高方差。
  3. 自演化推理能力

    • 模型通过高温采样生成长思维链(CoT),逐步出现自我验证反思行为。
    • 思维链长度从数百token增长至数万token(如数学题解答过程逐步细化)。
    • 结果:在MATH-500等数学基准上准确率提升至71%,代码生成Elo评分达1892。

局限性:输出可读性差(如语言混杂、格式混乱),泛化能力弱于R1。


二、从R1-Zero到R1(多阶段对齐优化)

目标:提升模型稳定性、可读性及通用能力。
关键技术步骤

  1. 冷启动SFT

    • 使用R1-Zero生成200条高质量思维链数据(含反思与验证步骤),对V3-Base微调。
    • 目的:提供初始策略,缓解纯强化学习初期的不稳定性。
  2. 强化学习增强推理

    • 继承GRPO框架,新增语言一致性奖励:强制输出语言统一(如仅用中文或英文)。
    • 采用课程学习策略:优先训练简单推理任务,逐步提升问题复杂度。
  3. 自动化数据生成与筛选

    • 用R1-Zero生成60万条推理数据(含数学、编程、逻辑题),通过规则过滤和V3打分筛选。
    • 混合20万条通用数据(非推理任务),构建混合SFT数据集。
  4. 拒绝采样与二次微调

    • 对R1-Zero的高分输出进行拒绝采样(Rejection Sampling),保留前10%高质量结果。
    • 结合通用数据对模型进行二次监督微调,提升多任务泛化能力。
  5. 全场景强化学习对齐

    • 最终阶段采用混合奖励函数:
      • 推理奖励(60%权重)+ 语言一致性奖励(20%)+ 安全性奖励(20%)。
    • 优化模型对人类偏好(如无害性、信息量)的响应能力。

三、关键技术创新对比

阶段核心技术数据依赖效果提升重点
R1-Zero纯GRPO强化学习、双规则奖励无人工标注推理能力突破
R1冷启动SFT、语言一致性奖励、拒绝采样自生成SFT数据可读性、泛化性、安全性对齐

总结

  • R1-Zero:通过纯强化学习从V3-Base直接激发推理能力,但存在输出质量缺陷。
  • R1:以R1-Zero为起点,通过冷启动SFT→强化学习→数据生成→二次微调四步迭代,平衡推理能力与通用性,最终成为兼顾性能与实用性的模型。
  • 训练成本:R1-Zero训练消耗约120万GPU小时,R1全流程成本降至557万美元(仅为GPT-4同类训练的1/30)。

相关文章:

  • 如何在Visual Studio和 .NET 7中使用C#配置代理服务器进行网页抓取,并使用HtmlAgilityPack进行HTML解析
  • React学习笔记20
  • 【分布式】冰山(Iceberg)与哈迪(Hudi)对比的基准测试
  • 开发语言漫谈-groovy
  • 二分查找------练习1
  • 使用C++在Qt框架下调用DeepSeek的API接口实现自己的简易桌面小助手
  • mysql5.7及mysql8的一些特性
  • 人工智能(AI)系统化学习路线
  • 在 ASP .NET Core 9.0 中使用 Scalar 创建漂亮的 API 文档
  • 干货!三步搞定 DeepSeek 接入 Siri
  • 给语言模型增加知识逻辑校验智能,识别网络信息增量的垃圾模式
  • 对立统一规律揭示的核心内容
  • AI-Talk开发板之更换串口引脚
  • 算法题(104):数的划分
  • Vue.js 应用的入口文件
  • STM32F103C8T6 -MINI核心板
  • C# SolidWorks 二次开发 -各种菜单命令增加方式
  • 建筑安全员考试:“知识拓展” 关键词驱动的深度备考攻略
  • 物理环境与安全
  • 说说Vue 3.0中Treeshaking特性?举例说明一下?
  • 山西临汾哪吒主题景区回应雕塑被指抄袭:造型由第三方公司设计
  • GDP逼近五千亿,向海图强,对接京津,沧州剑指沿海经济强市
  • 第四届长三角国际应急博览会开幕,超3000件前沿装备技术亮相
  • 80后莆田市文旅局长马骏登台与杨宗纬合唱,“演唱会秒变旅游推介会”
  • 马上评丨未成年人“擦边”短视频岂能成流量密码
  • 新疆交通运输厅厅长西尔艾力·外力履新吐鲁番市市长候选人