当前位置: 首页 > news >正文

【ReaLM】结合错误数据与课程学习 提升垂域效果

ReaLM 论文解读:小语言模型推理能力提升方法

本文解读 ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models(Xu et al., 2025),聚焦其如何通过 MRPV(Multi-Route Process Verification)与 EAAI(Enabling Autonomy via Asymptotic Induction)两个核心机制,系统性提升小语言模型(SLM)在推理能力、自主性、泛化性三个维度的表现。


1. 问题背景与动机

作者指出,当前SLM推理训练存在三大缺陷(见图1):

  1. 推理能力受限:主流方法如 RFT(Reject Sampling Fine-Tuning)仅保留正确推理路径(positive CoTs),过滤掉错误路径(negative CoTs),导致模型无法从错误中学习;
  2. 缺乏自主性:如 CoT-based Synthesizer 等方法在推理时依赖外部 LLM 生成的 CoT 作为输入特征,无法独立推理;
  3. 泛化能力差:如 LLMs-as-Instructor 方法过度拟合教师模型的特定推理风格,在新领域(尤其是垂直领域)表现不佳。

原文摘要:“Existing efforts have improved SLM performance, but typically at the cost of one or more of three key aspects: (1) reasoning capability, due to biased supervision that filters out negative reasoning paths… (2) autonomy, due to over-reliance on externally generated reasoning signals; and (3) generalization…”


2. ReaLM 整体框架

ReaLM 是一个基于强化学习(RL)的训练框架,包含三个组件:

  • MRPV:提升推理鲁棒性(capability);
  • EAAI:实现推理自主性(autonomy);
  • Guided CoT Distillation:注入领域知识,提升泛化(generalization)。

训练流程如图2(b)所示,支持两种模式:

  • ReaLM-Zero:纯 RL 训练;
  • ReaLM-R1:先 SFT 冷启动,再 RL 微调。

ReaLM-Zero:纯强化学习训练

  • 无监督微调(SFT)冷启动;
  • 直接在原始 SLM(如 DeepSeek-R1-7B 或 Qwen2.5-7B)上应用 MRPV + EAAI 进行端到端强化学习;
  • 适用于资源有限、希望快速部署的场景。

ReaLM-R1:迭代式训练(SFT + RL)

训练分两阶段(见图2(b) 右侧):

  1. Cold-start 数据构建
    • 使用初始 SLM(如 DeepSeek-R1-7B)在目标任务上生成推理样本;
    • 人工精修(manual refine)形成高质量 SFT 数据集;
  2. SFT 阶段
    • 在精修数据上进行全参数微调,得到 ReaLM-SFT 模型;
  3. RL 阶段
    • 以 ReaLM-SFT 为初始化,应用 MRPV + EAAI 进行强化学习微调;
    • 最终得到 ReaLM-R1

原文:“ReaLM-Annotator first labels cold-start data for SFT, followed by RL to progressively enhance reasoning with stable initialization.”

该范式通过 SFT 提供稳定起点,避免纯 RL 的训练不稳定性,尤其在垂直领域(如广告相关性)效果显著(见表5)。


3. MRPV:多路径过程验证

3.1 核心思想

MRPV 的核心是同时输入多个正确与错误的外部 CoT 路径,让 SLM 对比、评估、反思,从而学习“什么推理是有效的”。

原文:“MRPV introduces structured supervision that contrasts multiple reasoning trajectories, helping the model identify key decision factors and avoid systematic failure modes.”

3.2 完整例子(来自原文表A6)

以一道数学题为例:

问题:Amanda家有9个房间,5个房间各4面墙,4个房间各5面墙,5人平分刷墙任务,每人刷几面?

MRPV 的输入包含5条外部 CoT(由 GPT-4-Turbo 生成,temperature=1.5):

[CoT1] ... 总墙数=20+20=40,40/5=8 #### 8  
[CoT2] ... 总墙数=4+5=9 #### 9  
[CoT3] ... 总墙数=20+20=40,40/5=8 #### 8  
[CoT4] ... 总墙数=4+5=9,9/5=1.8 #### 1.8  
[CoT5] ... 总墙数=20+20=40,40/5=8 #### 8

SLM 的输出格式为:

<判断每条CoT对错> #### <最终答案>
例如:right wrong right wrong right #### 8

Ground Truthright wrong right wrong right #### 8

该例子清晰展示了 MRPV 如何要求模型同时完成两个任务:(1)评估外部推理质量;(2)给出正确答案。

3.3 是否需要强化学习?是否需要正确答案?

  • 必须使用强化学习:MRPV 的核心是两阶段奖励机制(见下文),依赖 RL 框架(如 GRPO)进行策略优化;
  • 训练时需要正确答案:Stage 1 奖励(答案正确性)和 Stage 2 奖励(CoT 评估准确性)都依赖ground truth 标签(包括最终答案和每条 CoT 的对错标签)。

原文公式(2)(3) 明确使用 pred(模型预测)与 ground truth 的比对来计算奖励。

Stage 1:答案正确性奖励(Answer Supervision)

rbase={1,答案与格式均正确0.1,格式正确但答案错0,否则 r_{\text{base}} = \begin{cases} 1, & \text{答案与格式均正确} \\ 0.1, & \text{格式正确但答案错} \\ 0, & \text{否则} \end{cases} rbase=1,0.1,0,答案与格式均正确格式正确但答案错否则

作用:确保模型首先学会给出正确答案。

Stage 2:CoT 评估准确性奖励(Process Supervision)

仅当 rbase=1r_{\text{base}} = 1rbase=1 时激活:

rgain=scalegain⋅1k∑i=1ksi r_{\text{gain}} = \text{scale}_{\text{gain}} \cdot \frac{1}{k} \sum_{i=1}^k s_i rgain=scalegaink1i=1ksi

其中 si=1s_i = 1si=1 当且仅当 SLM 对 CiC_iCi 的判断(正确/错误)与真实标签一致。

作用:鼓励模型反思外部推理质量,而非盲目模仿。

原文实验发现(Section 3.3):
移除 Stage 2 奖励后,GSM8K 性能从 94.4% 降至 93.8%,证明其有效性。
若 Stage 2 无条件激活(即使答案错),模型会过度优化评估任务而忽略主任务,导致性能下降。


4. EAAI:渐进式自主推理诱导

4.1 是否需要模型自己产生 CoT?

不需要。EAAI 的核心是控制外部 CoT 的输入比例,而非让模型生成训练用 CoT。
所有 CoT 均由外部 LLM(如 GPT-4-Turbo)预先生成,SLM 在训练中仅作为评估者和推理者

4.2 算法1:余弦衰减采样(简要翻译)

Algorithm 1: Dynamic CoT selection via Cosine decay
输入:当前训练步 cur,总步数 total,候选 CoT 集合 Candidates(大小 N)
输出:选中的 CoT 子集 Selected

  1. 计算归一化进度:t ← cur / total
  2. 计算阈值:threshold ← 0.5 × (1 + cos(π × t))
  3. 初始化 Selected ← ∅
  4. 对每条候选 CoT:
    • 采样随机数 prob ~ Uniform(0,1)
    • prob < threshold,则从 Candidates 中随机选一条加入 Selected,并从候选集中移除
  5. 返回 Selected

该算法确保训练初期(t≈0)高概率输入 CoT(threshold≈1),训练末期(t≈1)几乎不输入 CoT(threshold≈0),实现“脚手架渐撤”。


5.Guided CoT Distillation 实现机制详解

Guided CoT Distillation(引导式思维链蒸馏)是 ReaLM 框架中用于提升小语言模型(SLM)在垂直领域泛化能力的核心技术。

其目标是将领域专家知识(如商业规则、行业逻辑)内化到模型参数中,使 SLM 能在没有显式规则输入的情况下,自主遵循这些规则进行推理。

5.1. 核心思想与动机

传统 CoT 蒸馏方法(如 LLMs-as-Instructor)直接使用通用 LLM 生成的推理链进行训练,容易继承教师模型的通用偏见,在复杂垂直领域(如广告相关性判断)表现不佳。

ReaLM 的创新在于:在生成外部 CoT 时,以一定概率将专家撰写的评论(expert comment),从而生成 “规则感知型 CoT”(rule-aware CoT)。通过这种方式,SLM 在训练中不仅能学习“如何推理”,还能学习“在特定领域下应遵循哪些规则”。

原文 Section 2.3
“To help the model encode domain-specific rules and knowledge in its parameters, we generate rule-aware CoTs using a general teacher LLM by injecting expert comments into prompts with a certain probability.”


5.2. 实现流程

步骤 1:构建带专家评论的工业数据集

作者构建了一个名为 Ad Search Relevance Prediction 的工业数据集,每条样本为四元组:

⟨query,ad_info,label,comment⟩ \langle \text{query}, \text{ad\_info}, \text{label}, \text{comment} \rangle query,ad_info,label,comment

其中:

  • query:用户搜索词;
  • ad_info:广告内容;
  • label:三分类标签(不相关 / 部分相关 / 相关);
  • comment专家撰写的推理依据,包含用户意图、评估过程、结论。
示例(来自原文表A3):
字段内容
Query如何解决关于蜗牛爬树的数学问题?
Ad_info该视频推广作业帮App,这是一款通过互动方式帮助学生记忆古典诗歌的教育工具。
Label不相关
Comment[用户意图]:用户希望找到“蜗牛爬树”这一数学问题的解决方案。
[评估过程]:该广告展示了作业帮的古诗学习功能,但未展示任何与数学相关的内容。
[结论]:该广告未能满足用户的特定需求 → 不相关
步骤 2:在 LLM 提示词中注入专家评论

调用 GPT-4-Turbo 生成 CoT 时,以一定概率将 comment 拼接到提示词中,作为上下文指导。

完整提示词构造(基于原文表A5重构):

[Post-view Search]
用户查询:如何解决关于蜗牛爬树的数学问题?
广告信息:本视频推广作业帮App,这是一款通过互动方式帮助学生记忆古典诗歌的教育工具。
[可选:专家评论]
[用户意图]:用户希望找到“蜗牛爬树”这一数学问题的解决方案。
[评估过程]:该广告推广的是作业帮的古诗学习功能,但未展示任何与数学相关的内容。
[结论]:该广告未能满足用户的特定需求 → 不相关。请分析用户查询与广告的相关性。请逐步思考。

关键点[Optional: Expert Comment] 并非每次都出现,而是以预设概率(如 50%)随机注入,防止模型对规则过度依赖。

步骤 3:生成规则感知型 CoT

GPT-4-Turbo 基于上述提示生成 CoT。当 comment 存在时,生成的 CoT 会自然融入规则逻辑

对比输出示例:
  • **普通 CoT **(无 comment 注入):

    “Zuoyebang 是一个教育类 App,可能包含解题功能,因此相关。” → 错误结论

  • **规则感知 CoT **(有 comment 注入):

    “用户的查询是关于‘蜗牛爬树’的数学题,而广告仅展示古诗背诵功能,未涉及数学解题或作业辅导,因此无法满足用户核心需求,属于不相关。” → 正确结论

步骤 4:用于 SLM 训练

这些 规则感知型 CoT 被纳入 MRPV 框架,作为外部参考路径输入给 SLM。SLM 在强化学习中学习:

  1. 如何从多个 CoT 中辨别有效推理;
  2. 如何在无外部规则输入时,复现这种基于规则的判断逻辑

原文实验验证(表5):
在工业数据集上,引入专家评论后,ReaLM-Zero 的 F1 从 81.40 提升至 81.80,证明该方法有效提升了模型对领域规则的理解和泛化能力。


6. 实验发现

6.1 主要结果(表1)

  • 有外部 CoT 时:ReaLM(无 EAAI)在 GSM8K 上达 96.0%,显著优于 CoT-Synthesizer(87.0%);
  • 无外部 CoT 时:完整 ReaLM 仍达 94.4%,证明 EAAI 有效。

6.2 错误分析(表4)

  • MRPV 的 SAME Err(重复 LLM 错误)为 1.8,远低于 MRPV-Reject(2.8);
  • 证明保留错误路径有助于避免重复错误

6.3 错误 CoT 比例影响(图3)

  • 当错误 CoT 比例在 20%–80% 时,性能高于全对(0%)或全错(100%);
  • 说明多样性比纯正确性更重要

7. 个人评价与改进思考

【我认为,MRPV 的评估任务可能引入噪声】

MRPV 要求 SLM 对每条 CoT 做二分类(正确/错误),这本身是一个高难度子任务。在 CoT 复杂时(如数学证明),SLM 可能因无法判断 CoT 而随机猜测,导致 Stage 2 奖励失真。
改进建议:可引入软标签(soft label),如基于 CoT 与标准答案的语义相似度,而非硬性二分。

【我认为,EAAI 的余弦衰减过于简单】

余弦衰减是预设 schedule,未考虑任务难度差异。简单任务可能早期就应撤掉 CoT,复杂任务则需更久。
改进建议:可采用动态 curriculum,根据模型在验证集上的自主推理准确率,自适应调整 CoT 输入概率。

【我认为,MRPV 与 Self-Consistency 有互补潜力】

Self-Consistency(Wang et al., 2022)通过投票聚合多个 CoT,而 MRPV 通过对比学习。二者可结合:先用 MRPV 训练一个能评估 CoT 质量的模型,再用该模型对 Self-Consistency 的 CoT 加权投票。

http://www.dtcms.com/a/506688.html

相关文章:

  • 通了网站建设宿迁网站定制
  • Git仓库推送到GitHub
  • 本地多语言切换具体操作代码
  • 济南建设主管部门网站短视频网站如何做推广
  • AWS US-East-1 区宕机
  • C语言——关机小程序(有system()和strcmp()函数的知识点)
  • php网站案例购物网页设计图片
  • golang面经7:interface相关
  • [Agent可视化] 配置系统 | 实现AI模型切换 | 热重载机制 | fsnotify库(go)
  • 【第7篇】引入低配大模型
  • 【Linux】Linux 进程信号核心拆解:pending/block/handler 三张表 + signal/alarm 实战
  • Java-154 深入浅出 MongoDB 用Java访问 MongoDB 数据库 从环境搭建到CRUD完整示例
  • 1.云计算与服务器基础
  • 基于Draw.io的实时协作架构设计与性能优化实践
  • 网站右侧固定标题怎么做深圳品牌馆设计装修公司
  • ASP.NET MVC 前置基础:宿主环境 HttpRuntime 管道,从部署到流程拆透(附避坑指南)
  • 北京单位网站建设培训俱乐部网站方案
  • 如何将一加手机的照片传输到笔记本电脑?
  • 手机群控软件如何构建高效稳定的运营环境?
  • 云手机 无限畅玩手游 巨 椰
  • 做男装去哪个网站好网站备案后 如何建设
  • 用C语言实现代理模式
  • 云开发CloudBase AI+实战:快速搭建AI小程序全流程指南
  • ESP32学习笔记(基于IDF):连接手机热点,用TCP协议实现数据双向通信
  • 一个小程序轻量AR体感游戏,开发实现解决方案
  • java整合itext pdf实现固定模版pdf导出
  • 26考研数学一、二、三真题试卷及答案PDF电子版(1987-2025年)
  • Django Web 开发系列(二):视图进阶、快捷函数与请求响应处理
  • 重庆哪些网站推广公司wordpress获取用户名
  • Bevy 渲染系统 Bindless 实现与交互逻辑