当前位置：首页 > news >正文

LLM实践——DeepSeek技术报告学习（含实现逻辑梳理）

news 2025/9/17 13:55:08

一些基本概念：

post-training：旨在优化预训练模型的特定能力，包括‌任务适配性、安全性、对齐人类偏好‌等，使其更适用于实际场景。主要分为三个阶段：‌微调（Finetune）、对齐（Alignment）、评估（Evaluation）；
test-time compute（推理时计算）：在推理阶段（即大语言模型生成最终结果的阶段）投入更多计算资源，而非集中在预训练或后训练阶段。（推理过程的加入，使该现象更明显）；
rejection sampling（拒绝采样）：
- 拒绝采样定义：
  如图所示，p ( x ) 是我们希望采样的分布，q ( x ) 是我们提议的分布(proposal distribution)，q ( x ) 分布比较简单，令kq(x)>p(x)，我们首先在k q ( x ) 中按照直接采样的方法采样粒子，接下来判断这个粒子落在图中什么区域，对于落在蓝线以外的粒子予以拒绝，落在蓝线下的粒子接受，最终得到符合p(x)的N个粒子。
  ————————————————
- 拒绝接受采样的基本步骤：
  ①生成服从q(x)的样本→ xi
  ②生成服从均匀分布U(0,1)的样本→ui
  ③当q ( x i ) ⋅ u i < p ( x i ) ，也就是二维点落在蓝线以下（见附件），此时接受X k = x i
  ④最终得到的Xk为服从p(x)的样本。

deepseek-r1-zero

基于DeepSeek-R1报告梳理的deepseek-r1-zero模型实现过程如下：
在这里插入图片描述

deepseek-R1

基于DeepSeek-R1报告梳理的deepseek-R1模型实现过程如下：

整体以DeepSeek-V3模型为基础，经过两个SFT阶段、两个RL阶段；
deepseek GitHub：https://github.com/deepseek-ai/DeepSeek-R1?tab=readme-ov-file；

deepseek-R1 distill model：

模型蒸馏技术还需要进一步备注。

（1）DeepSeek蒸馏模型的基模型：Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-
14B, Qwen2.5-32B, Llama-3.1-8B, and Llama-3.3-70B-Instruct.
（2）使用deepseek-R1的800k SFT数据进行微调，没有经过RL过程。