当前位置: 首页 > news >正文

SFT 和 RL 融合:CHROD, LUFFY,UFT

1 CHROD

在这里插入图片描述
其中, SFT 损失,用于引导模型学习高质量专家数据;
RL 损失(如 GRPO),用于优化任务相关的可验证奖励;
μ为全局控制系数,用于动态平衡 SFT 与 RL 的相对权重。

在训练初期设置 μ=0.9,以促使模型优先学习专家行为模式,快速建立基础能力;随后在前 200 个训练步中将 μ 逐步衰减至 0.05;此后保持
μ 不变,使模型主要通过 RL 探索高奖励路径,避免过度依赖静态专家数据。

此外,CHORD 对传统的 SFT 损失进行了改进,引入 token-level 动态加权机制。该机制通过一个权重函数 在这里插入图片描述
对每个 token 的学习信号进行调制,使得:

  • 当模型对某个 token 的预测概率接近 0 或 1 时(即高度不确定或高度自信),其学习权重自动降低;
  • 当预测概率接近 0.5 时(即处于最不确定状态),该 token 权重最大成为学习重点。

这一设计缓解了可能出现的策略崩溃和熵坍缩等问题,显著提升了训练的稳定性与效率。

2 LUFFY(“海贼王”)

不同于CHORD,LUFFY 通过设计一个混合优势函数,将 SFT 与 RL 深度融合。该方法的核心在于对在线策略生成的轨迹(RL)和专家策略生成的离线轨迹(SFT)进行统一的优势计算。

具体来说,LUFFY 在计算优势值时,对两类轨迹的奖励进行了联合标准化处理:
在这里插入图片描述
其中 τi 是来自混合数据集中的任意轨迹, Gon 和 Goff 分别代表当前策略和专家策略生成的轨迹集合。这种处理方式使得模型能够同时参考自身的探索行为和专家的示范行为。

LUFFY 的优化目标是 SFT 和 RL 的损失和:
在这里插入图片描述
LUFFY 基于 RL 思想对 SFT 目标进行了重构,使其具备探索能力。改进后的 SFT 损失为:
在这里插入图片描述

其中包含两项核心设计:

  • 优势感知加权(Advantage-Aware Weighting):通过联合标准化的优势值 Aj 对每条专家轨迹进行加权,使模型在训练过程中更关注高奖励的推理路径。
  • 策略塑形函数(Policy Shaping Function):采用 f(x) = x/(x+γ) 对重要性比进行非线性压缩。LUFFY 设定专家策略的概率输出为 存在函数1(即 πΦ=1),此时重要性比退化为模型自身的动作概率πθ​。在这种设定下, f(πθ​) 能为低概率 token 保留非零梯度,防止模型在优化过程中忽略概率低但可能正确的 token。

此外,LUFFY 在 off-policy 分支(SFT)中省略了 CLIP 操作。通过该目标函数设计,LUFFY 将 SFT 从“死记硬背”答案转变为具备引导性与探索性的 RL 过程,从而提升模型的泛化能力。

3 UFT

监督微调SFT->强化微调RFT->动态微调DFT->统一微调UFT

UFT 从“信息引导”的视角提出了一种更为优雅的融合范式。
其核心思想在于:在训练初期提供完整的答案作为暗示(hint),并通过逐步缩短该暗示的长度,在统一的优化框架下实现从 SFT 到 RL 的平滑过渡,最终达到无需任何暗示的自主推理。
从”提供完整答案“逐步过渡到“无提示自主推理”。

具体而言,UFT 利用人类标注的完整答案,将其开头部分作为暗示(hint),拼接到问题后面一起输入模型。模型从这个暗示出发,继续生成后续的答案,并根据最终答案是否正确获得奖励。

这种方式自然地结合了两种学习模式:

  • 当暗示长度为完整解答时,模型被引导复现专家行为,此时为标准的SFT;
  • 当暗示长度为零时,模型完全自主生成推理路径,此时为标准的 RL。

UFT 的优化目标可抽象为 RL 与 SFT 的结合:
在这里插入图片描述
其中, Lsft 和 Lrl 基于暗示构造:输入为“问题 + 暗示”,模型从暗示末尾开始续写,对暗示部分施加监督信号(类 SFT 行为),对续写部分使用奖励优化(类 RL 行为)。暗示长度随训练进程逐步衰减(余弦退火算法),实现从SFT “模仿”到 RL “自主推理”的平滑过渡。
超参数 β 可手动设置,用于平衡 SFT与 RL。

http://www.dtcms.com/a/566729.html

相关文章:

  • 教育学校网站源码 php2018做网站的视频
  • 瀑布流 网站 php 源码wordpress 手机 主题
  • 制作化妆品网站阜阳网页
  • 做g3云推广需要网站网页制作平台播放视频
  • 如何解决 pip install 安装报错 不能在虚拟环境中执行 --user 安装 问题
  • 外贸网站模板外贸网站建设厦门旅游网站设计
  • 长沙网站seo源头厂家网站建设维护公司地址
  • Unity颜色曲线ColorCurves
  • 深度学习(10)模型评估、训练与选择
  • 做网站属于什么备案seo顾问价格
  • 网站刷单账务处理怎么做济宁网架公司
  • 网站建设分站要备案家居企业网站建设流程
  • Logstash读取日志从文件到mysql数据库
  • 北京网站建设认知市场营销的对象有哪些
  • 揭阳网站建设解决方案新乡建设企业网站
  • 珠海专业网站建设价格哈尔滨网站seo公司
  • 做优化需要发多少个网站用家里的电脑做网站服务器
  • 手机网站商城源码广州会议室租用
  • 汕头做网站公司宁波厂家关键词优化
  • Java Object 深入解析
  • 百度蜘蛛抓取新网站网站上传到虚拟主机
  • 在Unity中通过调整一些设置来提升运行和编译速度
  • 嵌入式面试1103
  • 网站强制分享链接怎么做的商丘网站网站建设
  • 设计导航精选最好的设计网站大全网站开发人员结构配比
  • 商业网站建设公司推荐免费wordpress建立
  • 怎么快速建网站建设银行信用卡中心
  • 怎么设置网站字体wordpress 免备案
  • 正规网站建设加盟合作宁波网站公司
  • 网站代码500做网站备案不少天