当前位置：首页 > news >正文

【ReaLM】结合错误数据与课程学习提升垂域效果

news 2025/10/21 7:08:03

ReaLM 论文解读：小语言模型推理能力提升方法

本文解读 ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models（Xu et al., 2025），聚焦其如何通过 MRPV（Multi-Route Process Verification）与 EAAI（Enabling Autonomy via Asymptotic Induction）两个核心机制，系统性提升小语言模型（SLM）在推理能力、自主性、泛化性三个维度的表现。

1. 问题背景与动机

作者指出，当前SLM推理训练存在三大缺陷（见图1）：

推理能力受限：主流方法如 RFT（Reject Sampling Fine-Tuning）仅保留正确推理路径（positive CoTs），过滤掉错误路径（negative CoTs），导致模型无法从错误中学习；
缺乏自主性：如 CoT-based Synthesizer 等方法在推理时依赖外部 LLM 生成的 CoT 作为输入特征，无法独立推理；
泛化能力差：如 LLMs-as-Instructor 方法过度拟合教师模型的特定推理风格，在新领域（尤其是垂直领域）表现不佳。

原文摘要：“Existing efforts have improved SLM performance, but typically at the cost of one or more of three key aspects: (1) reasoning capability, due to biased supervision that filters out negative reasoning paths… (2) autonomy, due to over-reliance on externally generated reasoning signals; and (3) generalization…”

2. ReaLM 整体框架

ReaLM 是一个基于强化学习（RL）的训练框架，包含三个组件：

MRPV：提升推理鲁棒性（capability）；
EAAI：实现推理自主性（autonomy）；
Guided CoT Distillation：注入领域知识，提升泛化（generalization）。

训练流程如图2(b)所示，支持两种模式：

ReaLM-Zero：纯 RL 训练；
ReaLM-R1：先 SFT 冷启动，再 RL 微调。

ReaLM-Zero：纯强化学习训练

无监督微调（SFT）冷启动；
直接在原始 SLM（如 DeepSeek-R1-7B 或 Qwen2.5-7B）上应用 MRPV + EAAI 进行端到端强化学习；
适用于资源有限、希望快速部署的场景。

ReaLM-R1：迭代式训练（SFT + RL）

训练分两阶段（见图2(b) 右侧）：

Cold-start 数据构建：
- 使用初始 SLM（如 DeepSeek-R1-7B）在目标任务上生成推理样本；
- 人工精修（manual refine）形成高质量 SFT 数据集；
SFT 阶段：
- 在精修数据上进行全参数微调，得到 ReaLM-SFT 模型；
RL 阶段：
- 以 ReaLM-SFT 为初始化，应用 MRPV + EAAI 进行强化学习微调；
- 最终得到 ReaLM-R1。

原文：“ReaLM-Annotator first labels cold-start data for SFT, followed by RL to progressively enhance reasoning with stable initialization.”

该范式通过 SFT 提供稳定起点，避免纯 RL 的训练不稳定性，尤其在垂直领域（如广告相关性）效果显著（见表5）。

3. MRPV：多路径过程验证

3.1 核心思想

MRPV 的核心是同时输入多个正确与错误的外部 CoT 路径，让 SLM 对比、评估、反思，从而学习“什么推理是有效的”。

原文：“MRPV introduces structured supervision that contrasts multiple reasoning trajectories, helping the model identify key decision factors and avoid systematic failure modes.”

3.2 完整例子（来自原文表A6）

以一道数学题为例：

问题：Amanda家有9个房间，5个房间各4面墙，4个房间各5面墙，5人平分刷墙任务，每人刷几面？

MRPV 的输入包含5条外部 CoT（由 GPT-4-Turbo 生成，temperature=1.5）：

[CoT1] ... 总墙数=20+20=40，40/5=8 #### 8  
[CoT2] ... 总墙数=4+5=9 #### 9  
[CoT3] ... 总墙数=20+20=40，40/5=8 #### 8  
[CoT4] ... 总墙数=4+5=9，9/5=1.8 #### 1.8  
[CoT5] ... 总墙数=20+20=40，40/5=8 #### 8

SLM 的输出格式为：

<判断每条CoT对错> #### <最终答案>
例如：right wrong right wrong right #### 8

Ground Truth：right wrong right wrong right #### 8

该例子清晰展示了 MRPV 如何要求模型同时完成两个任务：（1）评估外部推理质量；（2）给出正确答案。

3.3 是否需要强化学习？是否需要正确答案？

必须使用强化学习：MRPV 的核心是两阶段奖励机制（见下文），依赖 RL 框架（如 GRPO）进行策略优化；
训练时需要正确答案：Stage 1 奖励（答案正确性）和 Stage 2 奖励（CoT 评估准确性）都依赖ground truth 标签（包括最终答案和每条 CoT 的对错标签）。

原文公式(2)(3) 明确使用 pred（模型预测）与 ground truth 的比对来计算奖励。

Stage 1：答案正确性奖励（Answer Supervision）

$r_{\text{base}} = \begin{cases} 1, & \text{答案与格式均正确} \\ 0.1, & \text{格式正确但答案错} \\ 0, & \text{否则} \end{cases}$

作用：确保模型首先学会给出正确答案。

Stage 2：CoT 评估准确性奖励（Process Supervision）

仅当 $rbase=1r_{\text{base}} = 1$ 时激活：

$r_{\text{gain}} = \text{scale}_{\text{gain}} \cdot \frac{1}{k} \sum_{i=1}^k s_i$

其中 $s_i = 1$ 当且仅当 SLM 对 $C_i$ 的判断（正确/错误）与真实标签一致。

作用：鼓励模型反思外部推理质量，而非盲目模仿。

原文实验发现（Section 3.3）：
移除 Stage 2 奖励后，GSM8K 性能从 94.4% 降至 93.8%，证明其有效性。
若 Stage 2 无条件激活（即使答案错），模型会过度优化评估任务而忽略主任务，导致性能下降。

4. EAAI：渐进式自主推理诱导

4.1 是否需要模型自己产生 CoT？

不需要。EAAI 的核心是控制外部 CoT 的输入比例，而非让模型生成训练用 CoT。
所有 CoT 均由外部 LLM（如 GPT-4-Turbo）预先生成，SLM 在训练中仅作为评估者和推理者。

4.2 算法1：余弦衰减采样（简要翻译）

Algorithm 1: Dynamic CoT selection via Cosine decay
输入：当前训练步 cur，总步数 total，候选 CoT 集合 Candidates（大小 N）
输出：选中的 CoT 子集 Selected

计算归一化进度：t ← cur / total
计算阈值：threshold ← 0.5 × (1 + cos(π × t))
初始化 Selected ← ∅
对每条候选 CoT：
采样随机数 prob ~ Uniform(0,1)
若 prob < threshold，则从 Candidates 中随机选一条加入 Selected，并从候选集中移除

返回 Selected

该算法确保训练初期（t≈0）高概率输入 CoT（threshold≈1），训练末期（t≈1）几乎不输入 CoT（threshold≈0），实现“脚手架渐撤”。

5.Guided CoT Distillation 实现机制详解

Guided CoT Distillation（引导式思维链蒸馏）是 ReaLM 框架中用于提升小语言模型（SLM）在垂直领域泛化能力的核心技术。

其目标是将领域专家知识（如商业规则、行业逻辑）内化到模型参数中，使 SLM 能在没有显式规则输入的情况下，自主遵循这些规则进行推理。

5.1. 核心思想与动机

传统 CoT 蒸馏方法（如 LLMs-as-Instructor）直接使用通用 LLM 生成的推理链进行训练，容易继承教师模型的通用偏见，在复杂垂直领域（如广告相关性判断）表现不佳。

ReaLM 的创新在于：在生成外部 CoT 时，以一定概率将专家撰写的评论（expert comment），从而生成 “规则感知型 CoT”（rule-aware CoT）。通过这种方式，SLM 在训练中不仅能学习“如何推理”，还能学习“在特定领域下应遵循哪些规则”。

原文 Section 2.3：
“To help the model encode domain-specific rules and knowledge in its parameters, we generate rule-aware CoTs using a general teacher LLM by injecting expert comments into prompts with a certain probability.”

5.2. 实现流程

步骤 1：构建带专家评论的工业数据集

作者构建了一个名为 Ad Search Relevance Prediction 的工业数据集，每条样本为四元组：

$⟨query,ad_info,label,comment⟩ \langle \text{query}, \text{ad\_info}, \text{label}, \text{comment} \rangle$

其中：

query：用户搜索词；
ad_info：广告内容；
label：三分类标签（不相关 / 部分相关 / 相关）；
comment：专家撰写的推理依据，包含用户意图、评估过程、结论。

示例（来自原文表A3）：

字段	内容
Query	如何解决关于蜗牛爬树的数学问题？
Ad_info	该视频推广作业帮App，这是一款通过互动方式帮助学生记忆古典诗歌的教育工具。
Label	不相关
Comment	[用户意图]：用户希望找到“蜗牛爬树”这一数学问题的解决方案。 [评估过程]：该广告展示了作业帮的古诗学习功能，但未展示任何与数学相关的内容。 [结论]：该广告未能满足用户的特定需求 → 不相关。

步骤 2：在 LLM 提示词中注入专家评论

调用 GPT-4-Turbo 生成 CoT 时，以一定概率将 comment 拼接到提示词中，作为上下文指导。

完整提示词构造（基于原文表A5重构）：

[Post-view Search]
用户查询：如何解决关于蜗牛爬树的数学问题？
广告信息：本视频推广作业帮App，这是一款通过互动方式帮助学生记忆古典诗歌的教育工具。
[可选：专家评论]
[用户意图]：用户希望找到“蜗牛爬树”这一数学问题的解决方案。
[评估过程]：该广告推广的是作业帮的古诗学习功能，但未展示任何与数学相关的内容。
[结论]：该广告未能满足用户的特定需求 → 不相关。请分析用户查询与广告的相关性。请逐步思考。

关键点：[Optional: Expert Comment] 并非每次都出现，而是以预设概率（如 50%）随机注入，防止模型对规则过度依赖。

步骤 3：生成规则感知型 CoT

GPT-4-Turbo 基于上述提示生成 CoT。当 comment 存在时，生成的 CoT 会自然融入规则逻辑。

对比输出示例：

**普通 CoT **（无 comment 注入）：

“Zuoyebang 是一个教育类 App，可能包含解题功能，因此相关。” → 错误结论
**规则感知 CoT **（有 comment 注入）：

“用户的查询是关于‘蜗牛爬树’的数学题，而广告仅展示古诗背诵功能，未涉及数学解题或作业辅导，因此无法满足用户核心需求，属于不相关。” → 正确结论

步骤 4：用于 SLM 训练

这些 规则感知型 CoT 被纳入 MRPV 框架，作为外部参考路径输入给 SLM。SLM 在强化学习中学习：

如何从多个 CoT 中辨别有效推理；
如何在无外部规则输入时，复现这种基于规则的判断逻辑。

原文实验验证（表5）：
在工业数据集上，引入专家评论后，ReaLM-Zero 的 F1 从 81.40 提升至 81.80，证明该方法有效提升了模型对领域规则的理解和泛化能力。

6. 实验发现

6.1 主要结果（表1）

有外部 CoT 时：ReaLM（无 EAAI）在 GSM8K 上达 96.0%，显著优于 CoT-Synthesizer（87.0%）；
无外部 CoT 时：完整 ReaLM 仍达 94.4%，证明 EAAI 有效。

6.2 错误分析（表4）

MRPV 的 SAME Err（重复 LLM 错误）为 1.8，远低于 MRPV-Reject（2.8）；
证明保留错误路径有助于避免重复错误。

6.3 错误 CoT 比例影响（图3）

当错误 CoT 比例在 20%–80% 时，性能高于全对（0%）或全错（100%）；
说明多样性比纯正确性更重要。

7. 个人评价与改进思考

【我认为，MRPV 的评估任务可能引入噪声】

MRPV 要求 SLM 对每条 CoT 做二分类（正确/错误），这本身是一个高难度子任务。在 CoT 复杂时（如数学证明），SLM 可能因无法判断 CoT 而随机猜测，导致 Stage 2 奖励失真。
改进建议：可引入软标签（soft label），如基于 CoT 与标准答案的语义相似度，而非硬性二分。