deepseek_v3_base和deepseek_r1_zero和deepseek_r1
一、deepseek_v3_base和deepseek_r1_zero和deepseek_r1简述
1、deepseek_v3_base
deepseek_v3_base采用了和qwen2、chatglm3等不用的架构--MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练,训练成本大约550-600万美元。
2、deepseek_R1_zero及改进
在设计deepseek_R1的时候,有个很重要的点:慢思考技术。慢思考指的是模型在推理的时候,能像人类一样在回答问题的时候有一个详细的思考过程(称为thought),然后再得出最后的答案(称为response,答案不是简单的回答,也有一点思考流程,但是没有thought那么长)
**慢思考技术还有个很重要的点,论文中称为:顿悟时刻,就是推理时的thought中途,模型学会用拟人化的语气重新进行思考。这个或许在未来的人形机器人中能让机器人在执行一些错误的动作时能及时进行纠正,比如由于一些过激的行为让机器人猛然做出伤害人类的行为,但是在这个极短的时间里,机器人能纠正自己的行为,不产生过大的严重后果
为了训练这样一个模型,首先需要准备数据,有两个思路,第一个是人工收集、设计;第二个思路是模型产生,如果要模型产生的话,首先需要得到一个能很好产生这种“长思维链”数据的模型,也就是deepseek_r1_zero,但是单纯的deepseek_r1_zero是纯rl训练的,它有一些缺点:可读性差、多种语言混合输出,所以研究人员对它的训练过程做了改进,生成了一个能产出好数据的模型
deepseek_r1_zero的改进结果
(1)、有监督微调SFT
数据思路:与 DeepSeek-R1-Zero 不同,为了防止基础模型在 RL 训练早期出现不稳定的冷启动阶段,先构建并收集少量的长 CoT(Chains of Thought 思维链) 数据。为了收集此类数据,deepseek探索了几种方法:以长 CoT 为例,使用少样本提示,直接提示llm通过反思和验证生成详细答案,以可读格式收集 DeepSeek-R1-Zero 输出,并通过人工注释来后处理细化结果。在这项工作中,deepseek收集了数千个冷启动数据,以微调 DeepSeek-V3-Base 作为 RL 的起点。与 DeepSeek-R1-Zero 相比,冷启动数据的优势包括:
可读性:DeepSeek-R1-Zero 的一个关键限制是其内容通常不适合阅读。response可能混合多种语言或缺乏 markdown 格式来为用户突出显示答案。相比之下,在为 DeepSeek-R1 创建冷启动数据时,deepseek设计了一个可读模式,在每个响应末尾包含一个摘要,并过滤掉不友好的response。在这里,我们将输出格式定义为 |special_token|<reasoning_process>|special_token|<summary>,reasoning_process是CoT,summary用于总结推理结果。
潜力:通过精心设计具有人类先验知识的冷启动数据模式,deepseek观察到与 DeepSeek-R1-Zero 相比更好的性能。deepseek相信迭代训练是推理模型的更好方法。
(2.1.2)、SFT
这个过程是正常的有监督微调
(2.1)、强化学习
目的:提升模型在CoT上的生成能力,微后续的训练提供数据
训练数据:代码、数学、科学、逻辑推理,数据需要有确切的答案
奖励模型:准确率+格式+语言一致性+response长度
3、deepseek_R1
(1)、有监督微调
(1.1)、数据
上一阶段训练的deepseek-r1-zero的目的是生成这一阶段要用的数据,并不作为base model参与训练。这个阶段包括两部分数据
part1推理数据:包括两部分,一部分是数学、科学、逻辑推理的数据,另一部分是利用V3-base模型进行判断也具有可验证关系的数据,并且过滤掉了一些混合语言、代码块、长段落的数据,共60W
part2非推理数据:常规数据,为了防止v3-basemodel在训练过程中产生遗忘,所以这部分数据也就是训练v3 model时候的数据,不一定是CoT格式,共20W
(1.2)、训练2个epoch
(2)、强化学习
在准备数据时有两种数据:推理数据(CoT数据)、非推理数据(常规数据)。对于推理数据,RL的训练过程和deepseek-r1-zero相同;对于非推理数据,采用和训练deepseek v3中一样的思路,训练额外的奖励模型
为了保证有用性,只评估最终答案部分;为了保证无害性,thought+最终结果都进行评估