当前位置：首页 > news >正文

论文解读之DeepSeek R1

news 2025/10/14 21:09:46

今天带来DeepSeek R1的解读

一、介绍

deepseek主打复杂推理任务，如数学、代码任务。

R1以预训练过的V1-base初始化，主要发挥了RL在长思维链上的优势，R1-Zero直接RL而在前置步骤中不进行SFT，即缺少了有监督的指令微调阶段，探索了思维链解决复杂问题的能力，使得R1-Zero表现出自我验证、反思、产生长思维链的能力；同时用较大的模型的复杂推理能力来蒸馏，以提升llama和qwen的推理能力。

R1在数学、代码等benchmark上表现出色，一些数据集上超过O1

二、方法

2.1 R1-Zero

探索预训练后不经过SFT直接进行RL在推理任务上的能力

2.1.1 策略优化算法

使用GRPO（Group Relative Policy Optimization）的强化学习策略优化算法，以减少RL阶段的训练消耗，具体来说是在PPO的优化目标的基础上，在每个数据点上采样多次，使用多个样本的奖励输出归一化后作为优势函数，代替了价值模型在优化算法中的需求，少了一个需要更新参数的模型。

2.1.2 奖励模型

使用基于规则的奖励，以及格式奖励，要求其将思考过程放在两个思考token之间；无基于模型的奖励，防止reward hacking（类似于GAN中的模式坍塌，即防止奖励模型在强化学习过程中无法泛化到所有任务）在大规模强化学习过程中出现。

2.1.3 现象

随着RL的过程，模型表现出更复杂的行为：

1.响应长度加长

2.出现aha moment，即训练到一定程度开始出现回顾之前的输出步骤的现象。

看起来是模型在回顾之前的输出，并且去寻找不同的解决问题的路径，给真正的智能带来一定曙光

2.1.4 缺点

R1-zero

未经过SFT，存在可读性不强，语言混合的问题

2.2 R1

探索两个问题：（1）以一部分高质量数据冷启动加强推理表现并且加速收敛（2）训练更可用的长cot和通用表现的模型

2.3.1 冷启动

为防止R1-Zero的不稳定的从V3 base模型的冷启动阶段强化学习，构建、收集了小部分长CoT的冷启动数据去微调base模型作为强化学习的起始，这里的微调数据从R1中以few shot的形式生成

好处是：

1.规定了输出格式，可读性更好；

2.效果更好，SFT数据经过人工后处理

2.3.2 推理导向强化学习

在强化学习过程中加入语言一致性的奖励，将其作为基于规则的奖励作为奖励的第一部分；

同时，将可基于规则判断产生的推理任务的数据作为奖励的第二部分

2.3.3 拒绝采样和有监督微调

推理数据：

使用2.3.2阶段训出来的模型使用拒绝采样收集SFT数据；同时通过采用生成奖励模型，将事实和模型输出丢给v3做判断；过滤了混合语言、长段落、代码块

收集共600K推理相关的训练样本

非推理数据：

采用V3的SFT数据，对特定非推理任务，用V3产生可能的思维链数据，过于简单的问题不在响应中提供CoT数据

200K推理无关数据

将V3-base 在以上SFT数据上训练2epoch

2.3.4 全场景强化学习

对推理数据，和R1一样根据规则的强化学习；通用数据，按V3的流程

2.4 蒸馏

主要在qwen和llama上做，只做了SFT，验证蒸馏的作用

三、其他探索

3.1 蒸馏和强化的对比

在Qwen base的基础上对代码、数学、STEM数据进行强化学习训练，和用R1蒸馏做了对比，发现蒸馏效果更好，

那么为什么不用R1-zero做蒸馏，这样不是更公平些，比较zero没做sft而R1流程更全？

感觉是trick

3.2 失败的尝试

过程奖励模型：由于在推理中定义细粒度步骤很困难；界定中间步骤是否正确同样困难、存在奖励hacking问题

Monte Carlo Tree Search：涉及将答案拆解成小步骤，让模型系统地探索解决空间。该方法当训练规模变大时、词表变大时搜索树变得很大；同时存在价值模型不好训练的问题

四、结论和展望

R1和R1 zero探索了纯RL对推理任务的极大提升，同时用R1通过（冷启动+RL）训练出一个产推理类型数据的模型，以合成长cot的SFT以及强化数据，再进行SFT+强化过程，取得有力效果；同时探索了蒸馏的意义，提升小模型的能力。

四个未来做的：

1.通用能力

2.多语言

3.提示词工程

4.软件服务支持

http://www.dtcms.com/a/21147.html

相关文章：

【函数题】6-10 二分查找

全方位探索DeepSeek

ROS turtlesim 无法通过键盘控制 turtle 移动

DeepSeek与ChatGPT：AI语言模型的全面对决

单链表的概念，结构和优缺点

使用Python和OpenCV实现图像像素压缩与解压

Llama3.0论文学习笔记: The Llama 3 Herd of Models

硬件实用技巧：核心板与底板之间的连接方式：DIP、板对板连接器、金手指和邮票孔

volatile关键字

贝壳和鹅卵石分类数据集4250张2类别

ReactiveSwift模拟登录功能

Java+数据可视化的红酒信息分享系统（程序+论文+讲解+安装+调试+售后等）

C++17中的LegacyContiguousIterator（连续迭代器）

SNARKs 和 UTXO链的未来

【Javascript Day13、14、15、16】

【练习】【双指针】力扣热题100 283. 移动零

安全筑基，智能赋能：BeeWorks IM引领企业协同新纪元

回文数：简单问题中的多种优化思路

蓝桥杯篇---IAP15F2K61S2定时器

开业盛典活动策划方案拆解

Django中数据库迁移命令

pyqt写一个待办程序

惠普HP Color LaserJet CP1215/1210彩色打印机打印校准方法

比较5点结构的减一对称性

KT1025A蓝牙音频芯片歌名歌词ID3显示芯片的功能说明

手动埋点的demo

双击打开、输入内容即可生成二维码的便捷工具

往es中写入一条数据的，请求流程

使用MyBatis生成器

ZOJ 1012 Mainframe