当前位置: 首页 > news >正文

一文解析DeepSeek R1模型

1. DeepSeek R1-Zero

在训练DeepSeek R1之前,深度求索团队尝试做了一个DeepSeek R1-Zero的模型,只进行强化学习而不需要监督微调,以此来强化模型自我推理的能力。

通过下图回顾下ChatGPT的做法:首先SFT,然后训练奖励模型,最后通过PPO来迭代模型参数。而DeekSeek R1-Zero省略掉了SFT这一步骤,直接采用没有critic的GRPO来进行参数迭代,这种做法可以摒弃掉人类数据,让模型自我进行博弈从而完成模型迭代进化。

在这里插入图片描述

而这种做法之所以在很多任务中表现优秀主要体现在以下三个方面:GPRO、奖励机制、训练模板。

GPRO。为了节省强化学习的训练成本,作者采取组相对策略优化GRPO,放弃与策略模型参数相近的critic模型,而是从组得分中估计baseline。

奖励机制。奖励是训练信号的来源,决定了强化学习的方向。作者提出了一种基于规则的奖励系统,由准确性奖励和规则性奖励组成,这意味着模型不仅要回答正确还要保证推理思路是正确的。

训练模板。该训练模板要求模型首先要生成推理过程再得出对应的答案。

A conversation between User and Assistant. The user asks a question, and the Assistant solves it. 
The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. 
 
The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags
respectively, i.e., <think> reasoning process here </think> <answer> answer here </answer>. 
 
User: What is 7 + 3*7 = ?. Assistant:

DeekSeek R1-Zero的成功,展示出模型可以仅依靠强化学习就能自我迭代出强大的推理能力。

2. DeepSeek R1

应对DeekSeek R1-Zero中出现的可读性差、语言混乱等问题,深度求索团队提出了DeepSeek R1模型,该模型训练包括四个阶段:冷启动数据SFT、面向推理的强化学习、拒绝采样SFT、面向通用能力的强化学习。

冷启动SFT。使用DeekSeek R1-Zero创建一些冷启动数据,挑选出可读性强的,并人工标注后,作为冷启动微调数据。

面向推理的强化学习。在R1-Zero的基础上加入了语言一致性奖励,奖励规则包括:准确性奖励、规则性奖励、语言一致性奖励,模型不仅要有正确的推理思路和准确的答案,生成的内容还要保证语言一致性。

拒绝采样SFT。采用60W的推理数据和20W的非推理数据(翻译、写作等)构建微调数据集,保证模型在其他通用性领域也具有不错的效果。

面向通用能力的强化学习。为了进一步使模型符合人类偏好,提出一个辅助的强化学习阶段,旨在提升模型的有用性和无害性,同时优化其推理能力。

3. R1蒸馏版模型

使用R1数据蒸馏其他通用性模型,直接使用 DeepSeek-R1 阶段三中精心挑选的 80 万个样本对开源模型如 Qwen(Qwen, 2024b)和 Llama(AI@Meta,2024)进行了微调。

相关文章:

  • 开源的PMPI库实现及示例代码
  • 网络流量管理-流(Flow)
  • Kubernetes内存过度分配的隐患:一次Pod频繁重启的深度排查与解决
  • C++初阶-类和对象(上)
  • 关于举办“2025年第五届全国大学生技术创新创业大赛“的通知
  • 当算力遇上碳中和:碳足迹的算力追踪
  • 【从零开始学习JVM | 第三篇】虚拟机的垃圾回收学习(一)
  • 视频监控管理平台:智慧物流的“智慧之眼“
  • Linux基础6
  • 蓝桥杯大模板
  • Spring三级缓存学习
  • ProfibusDP转ModbusTCP接流量计技巧
  • 七种数码管驱动/LED驱动综合对比——《器件手册--数码管驱动/LED驱动》
  • 【React框架】什么是 Vite?如何使用vite自动生成react的目录?
  • pycharm2024.3.5版本配置conda踩坑
  • 没音响没耳机,把台式电脑声音播放到手机上
  • 【正点原子】STM32MP257 同构多核架构下的 ADC 电压采集与处理应用开发实战
  • 寻找最大美丽数
  • Dify使用技巧,与哪些工具搭配效率倍增?
  • 主机IP动态变化时如何通过固定host.docker.internal访问本机服务
  • 网站建设费用初步预算/搜索引擎优化报告
  • wordpress怎么用万网域名/seo百度发包工具
  • 中国建设工程造价管理协会网站简称/chrome浏览器
  • 广州企业网站建设/武汉网站seo推广公司
  • 惠州网站网站建设/搜索关键词排行榜
  • 新闻静态网站咋做/怎么自己做网站推广