当前位置：首页 > news >正文

deepseek_v3_base和deepseek_r1_zero和deepseek_r1

news 2025/10/16 5:33:37

一、deepseek_v3_base和deepseek_r1_zero和deepseek_r1简述

1、deepseek_v3_base

deepseek_v3_base采用了和qwen2、chatglm3等不用的架构--MoE 模型，671B 参数，激活 37B，在 14.8T token 上进行了预训练，训练成本大约550-600万美元。

2、deepseek_R1_zero及改进

在设计deepseek_R1的时候，有个很重要的点：慢思考技术。慢思考指的是模型在推理的时候，能像人类一样在回答问题的时候有一个详细的思考过程（称为thought），然后再得出最后的答案（称为response，答案不是简单的回答，也有一点思考流程，但是没有thought那么长）

**慢思考技术还有个很重要的点，论文中称为：顿悟时刻，就是推理时的thought中途，模型学会用拟人化的语气重新进行思考。这个或许在未来的人形机器人中能让机器人在执行一些错误的动作时能及时进行纠正，比如由于一些过激的行为让机器人猛然做出伤害人类的行为，但是在这个极短的时间里，机器人能纠正自己的行为，不产生过大的严重后果

为了训练这样一个模型，首先需要准备数据，有两个思路，第一个是人工收集、设计；第二个思路是模型产生，如果要模型产生的话，首先需要得到一个能很好产生这种“长思维链”数据的模型，也就是deepseek_r1_zero，但是单纯的deepseek_r1_zero是纯rl训练的，它有一些缺点：可读性差、多种语言混合输出，所以研究人员对它的训练过程做了改进，生成了一个能产出好数据的模型

deepseek_r1_zero的改进结果

(1)、有监督微调SFT

数据思路：与 DeepSeek-R1-Zero 不同，为了防止基础模型在 RL 训练早期出现不稳定的冷启动阶段，先构建并收集少量的长 CoT（Chains of Thought 思维链）数据。为了收集此类数据，deepseek探索了几种方法：以长 CoT 为例，使用少样本提示，直接提示llm通过反思和验证生成详细答案，以可读格式收集 DeepSeek-R1-Zero 输出，并通过人工注释来后处理细化结果。在这项工作中，deepseek收集了数千个冷启动数据，以微调 DeepSeek-V3-Base 作为 RL 的起点。与 DeepSeek-R1-Zero 相比，冷启动数据的优势包括：

可读性：DeepSeek-R1-Zero 的一个关键限制是其内容通常不适合阅读。response可能混合多种语言或缺乏 markdown 格式来为用户突出显示答案。相比之下，在为 DeepSeek-R1 创建冷启动数据时，deepseek设计了一个可读模式，在每个响应末尾包含一个摘要，并过滤掉不友好的response。在这里，我们将输出格式定义为 |special_token|<reasoning_process>|special_token|<summary>，reasoning_process是CoT，summary用于总结推理结果。

潜力：通过精心设计具有人类先验知识的冷启动数据模式，deepseek观察到与 DeepSeek-R1-Zero 相比更好的性能。deepseek相信迭代训练是推理模型的更好方法。

(2.1.2)、SFT

这个过程是正常的有监督微调

(2.1)、强化学习

目的：提升模型在CoT上的生成能力，微后续的训练提供数据

训练数据：代码、数学、科学、逻辑推理，数据需要有确切的答案

奖励模型：准确率+格式+语言一致性+response长度