当前位置: 首页 > news >正文

Post-training-of-llms TASK05

大模型训练方法后优化比较

方法原理优势劣势
监督微调(SFT)通过最大化示例回答的概率来模仿目标响应模式1.实现简单
2.可快速启动模型新行为
可能降低训练数据未涵盖任务的性能
在线强化学习(Online RL)通过最大化回答的奖励函数进行优化提升模型能力的同时在未见任务上性能下降较少1.实现复杂度最高
2.需要精心设计奖励函数
直接偏好优化(DPO)通过对比学习鼓励优质回答/抑制劣质回答1.有效修正错误行为
2.针对性提升特定能力
1.可能出现过拟合
2.实现复杂度介于SFT和在线RL之间

性能保持分析

在线强化学习为何比SFT更少降低性能?

核心机制差异:

  • 在线强化学习(OnlineRL):

模型生成多组回答(R1,R2,R3)→获取奖励信号→在模型原生能力空间内调整权重→ 保持模型生成分布稳定性
模型先生成多组回答(R1、R2、R3 等),再通过奖励信号筛选优质回答,最终在模型 “原生能力空间内” 调整权重。这种方式相当于在模型原本的生成逻辑基础上做 “优化升级”,因此能保持生成分布的稳定性,最大程度保留模型原有的泛化能力。
在这里插入图片描述

  • 监督微调(SFT)
    在这里插入图片描述
    要求模仿的示例答案可能与模型*自然生成分布**存在根本差异→ 强制模型偏离原始能力空间→权重发生非必要改变
    它要求模型强行模仿给定的示例答案,但这些示例可能和模型 “自然生成的分布” 存在本质差异。这种 “强行模仿” 会迫使模型偏离原始能力空间,导致权重发生很多非必要的改变 —— 相当于让模型放弃了一部分原生的泛化能力,因此在未见过的任务上更容易性能跳水。

监督微调(SFT)的示例答案是人为挑选或构造的,可能存在以下差异:

  • 风格差异:示例可能要求更正式、更简短的表达,而模型原生生成可能更口语化或详细。
  • 知识偏差:示例中的知识细节可能和模型预训练中学习到的通用知识存在冲突。
  • 推理路径差异:示例的推理步骤可能和模型原生的推理逻辑不一致。

从机器学习的分布泛化理论来看:

  • 模型的泛化能力依赖于 “训练分布” 和 “测试分布” 的一致性。SFT 的训练分布(示例答案)和模型原生的生成分布(测试时的自然任务分布)差异过大,导致分布偏移。
  • 模型为了拟合示例,会调整自身的权重参数,这些调整可能破坏了原生能力中的 “通用特征”,进而在未见过的任务上(属于原生分布但不属于示例分布的场景)表现骤降。

假设模型是一位擅长写各种风格文章的作家(原生能力空间,包含 “叙事逻辑”“词汇运用”“情感表达” 等通用特征)。
原生状态:它能写科幻小说、散文、新闻稿,风格多样但都符合语言规律(这对应模型未经过 SFT 时,在各类任务上的泛化能力)。
强行模仿(SFT):现在要求它只模仿 “官方公文” 的风格(示例答案的分布)。为了写好公文,它必须调整自己的 “写作参数”—— 比如刻意用套话、压缩情感表达、强化格式规范。
破坏通用特征:这些调整可能会 “扭曲” 它原本的 “叙事逻辑”(比如写小说时本该有情节起伏,却习惯性地写得像公文一样刻板),也可能让它的 “词汇库” 变得单一(只会用公文词汇,不会用文学性词汇)。
未见过的任务表现骤降:当让它去写一篇 “科幻小说”(属于原生分布但不属于公文分布的场景)时,它可能因为之前的参数调整,写出来的内容既不像公文也不像合格的小说 —— 这就是 “在未见过的任务上表现骤降”。


监督微调(SFT)的逻辑是模仿固定的示例回答,它仅在训练数据覆盖的场景下表现较好。一旦遇到训练数据未涵盖的任务,模型因缺乏适配新场景的学习机制,性能就会明显下降。
在线强化学习(Online RL)的核心是通过奖励函数持续优化回答,它不局限于模仿已有示例,而是在和环境的交互中不断学习如何在新场景下做出更优决策。这种基于奖励的动态优化机制,让模型能更好地泛化到未见任务,因此在性能的鲁棒性上更具优势,更少出现因任务覆盖不足而导致的性能跳水。

http://www.dtcms.com/a/531742.html

相关文章:

  • 项目实战复盘:基于仓颉语言的鸿蒙智能导航助手(HarmonyNav)
  • Datawhale AI秋训营|RAG 多模态相关 TASK1 /Task 2 Baseline笔记(待优化)
  • 龙华新区城市建设局网站网页布局是指什么
  • 【系统分析师】高分论文:论需求分析在项目中的应用(智慧市场监管项目)
  • LeetCode128. 最长连续序列
  • go-stream(一些常用命令介绍,以及在go-tcp中使用)
  • 中职 网站建设与管理海口快速建站公司推荐
  • Qt TCP 网络通信详解(笔记)
  • RandLA-net-pytorch 复现
  • Rocky 9 安装 Elasticsearch分布式集群基于非安全特性
  • 使用现代C++构建高效日志系统的分步指南
  • Nacos 环境搭建:从单机开发到集群生产部署
  • OpenWrt | 实现限制只有指定设备才能访问 luci 和 使用 SSH 等方式管理设备的方法
  • 数据库圣经-----最终章JDBC
  • 小贷做网站客户推广渠道有哪些
  • SAP SD交货单明细查询接口分享
  • Java Spring原理 --- Bean的作用域,Bean的生命周期,Spring自动配置
  • TCP三次握手与四次挥手通俗理解
  • 电商网站如何设计内容能源产品网站建设多少钱
  • 门户网站的发布特点网站子栏目设计
  • 赣州企业网站建设公司苏州网站定制公司哪家好
  • 网页设计与网站建设的课后习题答案外贸 企业网站 建设
  • 呼伦贝尔网站建设平台海口网站运营托管费用
  • 网站外包费用怎么做分录个人做广播网站需要注意什么
  • 教育网站设计欣赏建一个公司网站要多少钱
  • 广州快速建站公司推荐做关于植物的网站
  • 厦门网站建设哪家专业黔东南小程序开发公司
  • 网站开发公司安心加盟苏州排名搜索优化
  • 响应式网站公司怎么做网站
  • 老师问我做网站用到什么创新技术江苏网站建设空间