当前位置: 首页 > news >正文

【强化学习】RLMT强制 CoT提升训练效果

RLMT 训练方法详解:数据构造、训练流程与关键发现

本文提出的 RLMT(Reinforcement Learning with Model-rewarded Thinking) 是一种将 长链式思维(CoT)基于奖励模型的在线强化学习 相结合的新训练范式,适用于开放域通用对话任务。以下从 数据构造、训练方法、实验发现 三方面进行专业解读。


1. 数据构造

1.1 RL 训练提示(Prompt)来源

  • 使用 7.5k 条提示,来自 WildChat-IF 子集(Tülu 3 SFT 混合数据的一部分):

    原文:“We use 7.5k prompts from the WildChat-IF subset of the Tülu 3 SFT mixture. This subset prioritizes conversational prompts sampled from WildChat… covering a wide range of realistic user queries.”
    中文翻译:“我们使用来自 Tülu 3 SFT 混合数据中 WildChat-IF 子集的 7.5k 条提示。该子集优先选取来自 WildChat 的对话型提示,涵盖广泛的真实用户查询。”

  • 对比实验 表明:使用 UltraFeedback 或随机 Tülu-3 混合数据效果更差(见 Table 4),原因:

    • UltraFeedback 提示过于简单;
    • 原始 Tülu-3 包含大量数学/越狱提示,不适合通用对话。

1.2 SFT(监督微调)数据生成(可选)

  • 使用 Gemini 2.5 Flash(或 GPT-4.1-mini)为 6k 条不重叠提示 生成带 CoT 的响应;
  • 强制输出格式为:
     <think>...推理过程...</think><response>...最终回答...</response>
    
  • 教师模型被提示 模拟内部思考过程,而非直接输出答案。

1.3 “零训练”(Zero Training)设置

  • 跳过 SFT,直接对 base 模型(如 Llama-3.1-8B Base)应用 RLMT;
  • 通过固定前缀指令引导模型输出 CoT:

    “A conversation between User and Assistant. Following the User’s query, the Assistant first plans a response… in the format <think> reasoning process here</think><response> response here</response>.”


2. 训练方法

2.1 优化目标与训练方式

RLMT 的目标函数为:
max⁡θEx∼X[E(y,z)∼πθ(⋅∣x)[r(y,x)]](3)\max_{\theta} \mathbb{E}_{x \sim \mathcal{X}} \left[ \mathbb{E}_{(y,z) \sim \pi_\theta(\cdot|x)} \left[ r(y, x) \right] \right] \tag{3} θmaxExX[E(y,z)πθ(x)[r(y,x)]](3)
其中:

  • xxx:用户提示;
  • zzz:模型生成的推理链(CoT);
  • yyy:最终响应;
  • r(y,x)r(y, x)r(y,x):由 奖励模型(Reward Model) 给出的标量评分。

原文 §2.1 对比 RLHF 与 RLVR 后指出:“RLMT requires LMs to generate a reasoning trace zzz before producing the final response yyy, which differs from RLHF, and uses a reward model rrr to score responses, rather than rule-based verification as in RLVR.”

训练方式明确为在线强化学习(on-policy RL),而非离线偏好学习。作者在 §2.2 中强调:“We study several key design choices for RLMT: Training algorithm… We experiment with different RL algorithms: on-policy DPO, PPO, and GRPO.”

特别说明:此处的 “on-policy DPO” 并非传统离线 DPO,而是 动态采样当前策略生成的响应对 构建偏好数据(见 Footnote 2):

“Unlike standard DPO using a static preference dataset, we build preference pairs sampled from the policy model to be optimized.”

2.2 具体训练流程与原文示例

训练分为两个可选阶段:

(1)Warm-start SFT(可选)
  • 使用 Gemini 2.5 Flash 生成带 <think>...</think><response>...</response> 标签的响应;
  • 示例指令(Appendix C):

    “FORMAT: First showcase a detailed planning phase where you plan your response within <think>...</think> tags. Then produce the actual response within <response>...</response> tags.”

(2)在线强化学习阶段
  • 对每个 prompt xxx,从当前策略 πθ\pi_\thetaπθ 中采样多个响应(含 CoT);
  • 使用 Skywork-v2 奖励模型 对最终响应 yyy 打分 r(y,x)r(y, x)r(y,x)
  • 更新策略以最大化期望奖励。

GRPO 为例(Table 7):

  • 每 prompt 采样 8 个响应
  • 计算组内奖励均值作为基线:Ai=ri−18∑jrjA_i = r_i - \frac{1}{8} \sum_j r_jAi=ri81jrj
  • 使用 PPO-style clipped objective 更新策略,无需 critic 网络。

原文 §2.2:“GRPO(Shao et al., 2024)… computes advantages by mean-centering rewards within a group, eliminating the need for a learned critic.”


3. 实验中的关键发现

3.1 RLMT 显著提升开放域对话能力

  • AlpacaEval2、WildBench、ArenaHardV2 三大对话基准上,RLMT 比标准 RLHF 平均高 3–7 分
  • Llama-3.1-8B-Instruct-RLMT(8B)在 WildBench 上得分 50.4,超越:
    • Llama-3.1-70B-Instruct(16.3);
    • GPT-4o(46.2);
    • 甚至接近 Claude-3.7-Sonnet(47.8)。

3.2 “零训练”也能有效激发能力

  • 仅用 7k 提示 + GRPO,Llama-3.1-8B Base 模型在 WildBench 上达 7.2 分,远超其 Instruct 版本(-7.0);
  • Qwen-2.5-7B-RLMT-Zero(22.2)甚至 超过 Qwen-2.5-7B-Instruct(22.2 vs 22.2,但其他指标更高)

3.3 模型展现出的高级推理策略(附原文例子)

论文在 §4.2 通过自动 trait 分析发现,RLMT 训练后的模型从 线性 checklist 式规划 转变为更高级的策略:

原文 Figure 4 右侧示例(用户请求:“请将标题《紧急 vs 非紧急邮件的心理学——哪种转化率更高?何时使用?》扩展为一条 Twitter 推文线程”):

<think>
The user wants... This thread should...
The tone needs to be...
The constraints are strict: 1. No hashtags...**Plan:**
1. **Headline:** ...
2. **Thread Structure:** ...
3. **Content Strategy (What-Why-How-Snap):** ...
4. **Tone & Voice:** Adopt the persona....
5. **Constraint Checklist & Refinement:**- **No Hashtags:** ...
6. **Drafting & Refinement:** Write each t...
Strategizing complete. I will now...
</think>

该例子展示了以下高级策略:

  1. 约束枚举(Integrates constraints into plan):明确列出“不能使用 hashtag”等硬性约束;
  2. 主题聚类(Groups ideas into themes):将内容策略按 What-Why-How-Snap 分组;
  3. 迭代修正(Revises/backtracks while planning):在最终输出前执行“Constraint Checklist & Refinement”步骤,回溯检查是否满足所有约束。

相比之下,SFT 阶段的模型仅输出如“1. 引言 2. 主体 3. 结论”这类线性结构。


4. 方法评述与改进建议

【我认为,RLMT 的核心创新在于将“思维显式化”与“通用奖励信号”结合,但仍有改进空间:】

  1. CoT 格式过于僵化:强制使用 </think> 可能限制模型自然表达。
    【我认为,可探索 动态 CoT 触发机制(如仅在复杂任务中启用),或使用 隐式思维蒸馏(如通过 attention mask 引导内部推理)来减少格式依赖。】

  2. 奖励模型仍是瓶颈:Table 4 显示,弱奖励模型(ArmoRM)导致非对话任务性能下降。
    【我认为,可引入 多目标奖励融合(如 PopQA 准确率 + WildBench 风格分),或采用 在线奖励模型微调(online RM adaptation)以平衡多任务表现。】

  3. 未验证安全性:论文未评估 RLMT 是否增加越狱或有害输出风险。
    【我认为,在 RLMT 中加入 安全约束奖励项(如 rsafe=rchat−λ⋅Iunsafer_{\text{safe}} = r_{\text{chat}} - \lambda \cdot \mathbb{I}_{\text{unsafe}}rsafe=rchatλIunsafe)是必要扩展。】


综上,RLMT 通过 强制 CoT + 强奖励模型 + GRPO,在极小数据量下实现了 SOTA 的开放域对话能力,为后训练范式提供了新思路。

http://www.dtcms.com/a/509202.html

相关文章:

  • 左Shift键失灵解决办法
  • 如何确定网站建设空间wordpress安装到本地
  • 建设网站使用的工具wordpress single模板
  • 网站域名注册费用哔哩哔哩网页入口
  • 承德市外贸网站建设网站如何建设推广
  • SVN 关于 ! 的解决
  • 如何优化自己的网站哪些建材网站可以做宣传
  • 黎平网站开发辽宁网站建设价格
  • dotnet-sdk-5.0.400-linux-x64.tar.gz 安装教程(Linux 手动安装 .NET 5.0.400 SDK 步骤)
  • 中医基础知识和核心知识
  • 校园文化宣传主题网站的建设唯美古风ppt模板
  • 珠海建网站的网络公司打开网站搜索
  • 上海营销型网站建设wap网站模板下载
  • 数字货币:从“虚拟金库”到法定货币的进化
  • 做博物馆网站最重要性企业网站营销案例
  • 企业网络搭建案例seo排名优化价格
  • 输入n个整数,输出其中最小的k个
  • 广州市增城区建设局网站是什么赣州市经开区住房和建设局网站
  • 网站导航条设计苏州网站建设渠道
  • 做网上夫妻去哪个网站如何分析竞争对手网站
  • 金华自助建站抖音免费推广网站
  • php的网站怎么做的成都区块链网站开发
  • 深圳网站建设专家网站怎么集成支付宝
  • 免费建手机网站网站安全检测腾讯
  • 《 Linux 点滴漫谈: 三 》掌控终端:让 Shell 成为你的系统魔杖
  • LangGraph 记忆系统实战:反馈循环 + 动态 Prompt 让 AI 持续学习
  • 如何用手机制作网站版面设计的原则
  • 校园二手网站设计论文wordpress外贸网站模板
  • 乐清有那些网站快看点自媒体平台注册账号入口
  • 网站弹出文字自学网站制作教程