当前位置: 首页 > news >正文

理解大模型论文中的名词部分

对 DeepSeek、Qwen模型技术报告中的名词部分进行介绍

🧠 1. 预训练

•	目标:从海量无标注文本中学语言能力(通常一次性训练大模型)
•	特点:训练耗时、成本高,但是基础中的基础
•	是否自己做:一般使用开源预训练模型,无需重复训练

📋 2. 指令监督微调(SFT)

•	目标:让模型学会执行人类指令(如问答、对话)
•	方式:使用高质量“指令-回答”对做有监督训练
•	适用:适合构建基础可控模型,例如 chat 模式

🏆 3. 奖励模型训练(RM)

•	目标:训练一个模型来评分输出“好不好”(打分器)
•	用途:给后续的强化学习训练(PPO 等)提供 reward
•	难点:数据构建难,通常需要人类偏好对比(两个答案哪个更好)

🧪 4. PPO(Proximal Policy Optimization)

•	目标:基于 reward(RM 输出)优化模型策略
•	特点:传统 RLHF 强化学习方法,收敛慢,难调参
•	效果:输出多样化、有创造力,但训练代价大

🧬 5. DPO(Direct Preference Optimization)

•	目标:跳过奖励模型,直接用偏好对比做优化
•	优点:比 PPO 简单,不需要 reward model
•	效果:训练稳定性好,适合偏好对比数据(成对答案)

🧮 6. KTO / ORPO / SimPO(偏好优化方法族)

方法特点简介
KTO数据顺序敏感Keep The Order:保留偏好顺序信息
ORPO在线排序优化Online Rank Preference Optimization,处理多个选项的排序关系
SimPO利用相似性评分使用 Cosine 等方法衡量输出间偏好差异,训练稳定、效果好

🪶 7. LoRA / QLoRA

•	是一种训练方式/技巧,而不是训练目标
•	用来替代“全参数训练”,只训练少量插入层,显存省、训练快
•	QLoRA 是量化版本(通常 4bit),更节省资源
目标推荐方式
基础问答、对话指令微调(SFT) + LoRA
控制输出质量、有偏好排序DPO / ORPO / SimPO
追求效果极致(预算高)PPO(需 RM)
资源紧张QLoRA + SimPO
不想构建 RMDPO / SimPO 更简单

相关文章:

  • 深入剖析Go Channel:从底层原理到高阶避坑指南|Go语言进阶(5)
  • Next.js 平行路由详解
  • Linux系统中使用node -v出现GLIBC_2.27 not found问题的解决方案
  • 前端大屏可视化项目 局部全屏(指定盒子全屏)
  • 《算法笔记》3.5小节——入门模拟->进制转换
  • Halo 设置 GitHub - OAuth2 认证指南
  • 【模拟电路】达林顿管
  • Linux--进程信号
  • windows安装docker随记
  • 【Git】--- 企业级开发流程
  • MacOS下下载和编译webrtc步骤
  • AI Agent入门指南
  • 使用Golang打包jar应用
  • CAS是什么,以及它在内存分配中的作用?线程在分配内存时为什么会发生竞争?预分配堆内存区域是如何解决这个问题的?
  • python求π近似值
  • 【速写】formatting_func与target_modules的细节(peft)
  • K8s是常用命令和解释
  • 【Hotspot虚拟机创建对象的过程是什么样的?】
  • Redis的分布式锁
  • [ABC400F] Happy Birthday! 3 题解
  • 什么网站排名做的最好/百度金融
  • 外链代发免费/一键优化清理手机
  • wordpress导航站模版/防城港网站seo
  • 威海环翠疫情最新消息/seo一般包括哪些内容
  • 微网站开发平台 开源/域名停靠网页推广大全2023
  • 电脑上wap网站/株洲seo