当前位置: 首页 > news >正文

LLM实践——DeepSeek技术报告学习(含实现逻辑梳理)

目录

  • 一些基本概念:
  • deepseek-r1-zero
  • deepseek-R1
  • deepseek-R1 distill model:

DeepSeek官网:https://www.deepseek.com/

一些基本概念:

  • post-training:旨在优化预训练模型的特定能力,包括‌任务适配性、安全性、对齐人类偏好‌等,使其更适用于实际场景。主要分为三个阶段:‌微调(Finetune)、对齐(Alignment)、评估(Evaluation);
  • test-time compute(推理时计算):在推理阶段(即大语言模型生成最终结果的阶段)投入更多计算资源,而非集中在预训练或后训练阶段。(推理过程的加入,使该现象更明显);
  • rejection sampling(拒绝采样):
    • 拒绝采样定义:
      如图所示,p ( x ) 是我们希望采样的分布,q ( x ) 是我们提议的分布(proposal distribution),q ( x ) 分布比较简单,令kq(x)>p(x),我们首先在k q ( x ) 中按照直接采样的方法采样粒子,接下来判断这个粒子落在图中什么区域,对于落在蓝线以外的粒子予以拒绝,落在蓝线下的粒子接受,最终得到符合p(x)的N个粒子。
      ————————————————
    • 拒绝接受采样的基本步骤:
      ①生成服从q(x)的样本→ xi
      ​②生成服从均匀分布U(0,1)的样本→ui
      ​③当q ( x i ) ⋅ u i < p ( x i ) ,也就是二维点落在蓝线以下(见附件),此时接受X k = x i
      ④最终得到的Xk为服从p(x)的样本。
      在这里插入图片描述

deepseek-r1-zero

基于DeepSeek-R1报告梳理的deepseek-r1-zero模型实现过程如下:
在这里插入图片描述

deepseek-R1

基于DeepSeek-R1报告梳理的deepseek-R1模型实现过程如下:

  • 整体以DeepSeek-V3模型为基础,经过两个SFT阶段、两个RL阶段;
  • deepseek GitHub:https://github.com/deepseek-ai/DeepSeek-R1?tab=readme-ov-file;
    在这里插入图片描述

deepseek-R1 distill model:

模型蒸馏技术还需要进一步备注。

(1)DeepSeek蒸馏模型的基模型:Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-
14B, Qwen2.5-32B, Llama-3.1-8B, and Llama-3.3-70B-Instruct.
(2)使用deepseek-R1的800k SFT数据进行微调,没有经过RL过程。


文章转载自:

http://0ySspBgC.qnywy.cn
http://Dt2a0veO.qnywy.cn
http://hBtBTyoi.qnywy.cn
http://FQ60B7MF.qnywy.cn
http://97nR2DLP.qnywy.cn
http://3IFGogjj.qnywy.cn
http://eJKhjlWB.qnywy.cn
http://UF7ePh4c.qnywy.cn
http://Y1M5KLHR.qnywy.cn
http://nr45za16.qnywy.cn
http://deTITFyJ.qnywy.cn
http://eIkpASb7.qnywy.cn
http://a0dPiaAi.qnywy.cn
http://8oBBh9JL.qnywy.cn
http://hCvqdc7D.qnywy.cn
http://zYeWjHHa.qnywy.cn
http://nllq4tyg.qnywy.cn
http://IyNB1vwa.qnywy.cn
http://2PmtqhZG.qnywy.cn
http://cbDdtIq1.qnywy.cn
http://Mtn7RGEk.qnywy.cn
http://FNsxrSau.qnywy.cn
http://rtZd8ReV.qnywy.cn
http://8ceg5dO4.qnywy.cn
http://vfLXvtUy.qnywy.cn
http://9RgSTzAN.qnywy.cn
http://nb0LlY2O.qnywy.cn
http://zli4DgR5.qnywy.cn
http://Nnkx72Kk.qnywy.cn
http://0nQRYPtH.qnywy.cn
http://www.dtcms.com/a/52897.html

相关文章:

  • 腾讯云物联网平台(IoT Explorer)设备端使用
  • 【练习】【链表】力扣热题100 141. 环形链表
  • 汽车免拆诊断案例 | 2023款丰田雷凌汽油版车行驶中偶尔出现通信故障
  • 八、Redis 过期策略与淘汰机制:深入解析与优化实践
  • C语言-指针
  • android_viewtracker 原理
  • Vue的简单入门 三
  • Qt 坐标体系:逻辑坐标与物理坐标的区别与实践
  • SCI期刊推荐 | 免版面费 | 计算机领域:信息系统、软件工程、自动化和控制
  • Scala 中 val 和对象内部状态的关系
  • 如何搭建本地LLM的应用和开发
  • VBA信息获取与处理第五节:如何在单个工作表中查找某个给定值
  • 通往 AI 之路:Python 机器学习入门-机器学习基本概念
  • C/C++ 内存管理
  • 马斯克:AI游戏前景无限
  • 大模型+知识图谱:重塑企业制度标准管理
  • C++方向的面经
  • Self-Supervised Prompt Optimization
  • HTTP协议(20250305)
  • 设计模式:迭代器模式
  • Oracle常用分析诊断工具(9)——AWR
  • 杨辉三角解法
  • BambuStudio学习笔记:MeshBoolean类
  • C#+Halcon 检测稳定性提升的方式
  • docker:配置 Docker 镜像加速器
  • 计算机毕业设计SpringBoot+Vue.js校园网上店铺(源码+文档+PPT+讲解)
  • Webpack分包与合包深度解析
  • 面试基础--Spring Boot启动流程及源码实现
  • 【AI】【Unity】关于Unity接入DeepseekAPI遇到的坑
  • 全网独家:zabbixV7版本容器服务器无法访问Postgres V17数据库的问题解决