当前位置: 首页 > news >正文

[论文笔记] Deepseek-R1R1-zero技术报告阅读

启发:

1、SFT&RL的训练数据使用CoT输出的格式,先思考再回答,大大提升模型的数学与推理能力。

2、RL训练使用群体相对策略优化(GRPO),奖励模型是规则驱动,准确性奖励和格式化奖励。

1. 总体概述

  • 背景与目标

    • 报告聚焦于利用强化学习(RL)提升大型语言模型(LLMs)的推理能力,旨在探索在不依赖大规模监督微调(SFT)的情况下,模型如何自我进化并形成强大的推理能力。

    • 介绍了两代模型:DeepSeek-R1-Zero(纯 RL,无 SFT 冷启动数据)和 DeepSeek-R1(在 RL 前加入少量冷启动数据和多阶段训练流程,提升可读性及推理表现)。

  • 核心思路

    • 直接在基础模型上应用大规模强化学习,利用规则设计的奖励机制(包括准确性奖励和格式奖励)激励生成长链思维(CoT)。

    • 通过拒绝采样和后续的监督微调,进一步改善模型输出的可读性和对齐人类偏好。

相关文章:

  • Android10 音频参数导出合并
  • DeepSeek+即梦 做AI视频
  • Sonic Layer1
  • Golang GORM系列:GORM 高级查询教程
  • 【机器学习】线性回归 线性回归模型的损失函数 MSE RMSE MAE R方
  • Docker 安装指南:Windows、Mac、Linux
  • [HCTF 2018]WarmUp
  • 力扣--239.滑动窗口最大值
  • 基于物联网的智能蔬菜仓库设计(论文+源码)
  • C++ Primer 跳转语句
  • 知识管理成功:关键指标和策略,研究信息的投资回报率
  • Ansible中Playbook的逻辑控制语句-when
  • Leetcode 算法题 9 回文数
  • ThinkPHP8视图赋值与渲染
  • 唯一值校验的实现思路(续)
  • Centos7系统安装redis
  • 3.【线性代数】——矩阵乘法和逆矩阵
  • 删除命名空间长时间处于 Terminating 状态的方式
  • react redux用法学习
  • TextWebSocketHandler 和 @ServerEndpoint 各自实现 WebSocket 服务器
  • 追光|铁皮房、土操场,这有一座“筑梦”摔跤馆
  • 视频丨习近平同普京会谈:共同弘扬正确二战史观,维护联合国权威和地位
  • 东亚社会的“苦难诗学”:从《苦尽柑来遇见你》说起
  • 中国中古史集刊高质量发展论坛暨《唐史论丛》创刊四十周年纪念会召开
  • 外交部:解放军参加红场阅兵体现了中方对历史的尊重和铭记
  • 韩正出席庆祝中国欧盟建交50周年招待会并致辞