【ReaLM】结合错误数据与课程学习 提升垂域效果
ReaLM 论文解读:小语言模型推理能力提升方法
本文解读 ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models(Xu et al., 2025),聚焦其如何通过 MRPV(Multi-Route Process Verification)与 EAAI(Enabling Autonomy via Asymptotic Induction)两个核心机制,系统性提升小语言模型(SLM)在推理能力、自主性、泛化性三个维度的表现。
1. 问题背景与动机
作者指出,当前SLM推理训练存在三大缺陷(见图1):
- 推理能力受限:主流方法如 RFT(Reject Sampling Fine-Tuning)仅保留正确推理路径(positive CoTs),过滤掉错误路径(negative CoTs),导致模型无法从错误中学习;
- 缺乏自主性:如 CoT-based Synthesizer 等方法在推理时依赖外部 LLM 生成的 CoT 作为输入特征,无法独立推理;
- 泛化能力差:如 LLMs-as-Instructor 方法过度拟合教师模型的特定推理风格,在新领域(尤其是垂直领域)表现不佳。
原文摘要:“Existing efforts have improved SLM performance, but typically at the cost of one or more of three key aspects: (1) reasoning capability, due to biased supervision that filters out negative reasoning paths… (2) autonomy, due to over-reliance on externally generated reasoning signals; and (3) generalization…”
2. ReaLM 整体框架
ReaLM 是一个基于强化学习(RL)的训练框架,包含三个组件:
- MRPV:提升推理鲁棒性(capability);
- EAAI:实现推理自主性(autonomy);
- Guided CoT Distillation:注入领域知识,提升泛化(generalization)。
训练流程如图2(b)所示,支持两种模式:
- ReaLM-Zero:纯 RL 训练;
- ReaLM-R1:先 SFT 冷启动,再 RL 微调。
ReaLM-Zero:纯强化学习训练
- 无监督微调(SFT)冷启动;
- 直接在原始 SLM(如 DeepSeek-R1-7B 或 Qwen2.5-7B)上应用 MRPV + EAAI 进行端到端强化学习;
- 适用于资源有限、希望快速部署的场景。
ReaLM-R1:迭代式训练(SFT + RL)
训练分两阶段(见图2(b) 右侧):
- Cold-start 数据构建:
- 使用初始 SLM(如 DeepSeek-R1-7B)在目标任务上生成推理样本;
- 人工精修(manual refine)形成高质量 SFT 数据集;
- SFT 阶段:
- 在精修数据上进行全参数微调,得到 ReaLM-SFT 模型;
- RL 阶段:
- 以 ReaLM-SFT 为初始化,应用 MRPV + EAAI 进行强化学习微调;
- 最终得到 ReaLM-R1。
原文:“ReaLM-Annotator first labels cold-start data for SFT, followed by RL to progressively enhance reasoning with stable initialization.”
该范式通过 SFT 提供稳定起点,避免纯 RL 的训练不稳定性,尤其在垂直领域(如广告相关性)效果显著(见表5)。
3. MRPV:多路径过程验证
3.1 核心思想
MRPV 的核心是同时输入多个正确与错误的外部 CoT 路径,让 SLM 对比、评估、反思,从而学习“什么推理是有效的”。
原文:“MRPV introduces structured supervision that contrasts multiple reasoning trajectories, helping the model identify key decision factors and avoid systematic failure modes.”
3.2 完整例子(来自原文表A6)
以一道数学题为例:
问题:Amanda家有9个房间,5个房间各4面墙,4个房间各5面墙,5人平分刷墙任务,每人刷几面?
MRPV 的输入包含5条外部 CoT(由 GPT-4-Turbo 生成,temperature=1.5):
[CoT1] ... 总墙数=20+20=40,40/5=8 #### 8
[CoT2] ... 总墙数=4+5=9 #### 9
[CoT3] ... 总墙数=20+20=40,40/5=8 #### 8
[CoT4] ... 总墙数=4+5=9,9/5=1.8 #### 1.8
[CoT5] ... 总墙数=20+20=40,40/5=8 #### 8
SLM 的输出格式为:
<判断每条CoT对错> #### <最终答案>
例如:right wrong right wrong right #### 8
Ground Truth:
right wrong right wrong right #### 8
该例子清晰展示了 MRPV 如何要求模型同时完成两个任务:(1)评估外部推理质量;(2)给出正确答案。
3.3 是否需要强化学习?是否需要正确答案?
- 必须使用强化学习:MRPV 的核心是两阶段奖励机制(见下文),依赖 RL 框架(如 GRPO)进行策略优化;
- 训练时需要正确答案:Stage 1 奖励(答案正确性)和 Stage 2 奖励(CoT 评估准确性)都依赖ground truth 标签(包括最终答案和每条 CoT 的对错标签)。
原文公式(2)(3) 明确使用
pred
(模型预测)与ground truth
的比对来计算奖励。
Stage 1:答案正确性奖励(Answer Supervision)
rbase={1,答案与格式均正确0.1,格式正确但答案错0,否则 r_{\text{base}} = \begin{cases} 1, & \text{答案与格式均正确} \\ 0.1, & \text{格式正确但答案错} \\ 0, & \text{否则} \end{cases} rbase=⎩⎨⎧1,0.1,0,答案与格式均正确格式正确但答案错否则
作用:确保模型首先学会给出正确答案。
Stage 2:CoT 评估准确性奖励(Process Supervision)
仅当 rbase=1r_{\text{base}} = 1rbase=1 时激活:
rgain=scalegain⋅1k∑i=1ksi r_{\text{gain}} = \text{scale}_{\text{gain}} \cdot \frac{1}{k} \sum_{i=1}^k s_i rgain=scalegain⋅k1i=1∑ksi
其中 si=1s_i = 1si=1 当且仅当 SLM 对 CiC_iCi 的判断(正确/错误)与真实标签一致。
作用:鼓励模型反思外部推理质量,而非盲目模仿。
原文实验发现(Section 3.3):
移除 Stage 2 奖励后,GSM8K 性能从 94.4% 降至 93.8%,证明其有效性。
若 Stage 2 无条件激活(即使答案错),模型会过度优化评估任务而忽略主任务,导致性能下降。
4. EAAI:渐进式自主推理诱导
4.1 是否需要模型自己产生 CoT?
不需要。EAAI 的核心是控制外部 CoT 的输入比例,而非让模型生成训练用 CoT。
所有 CoT 均由外部 LLM(如 GPT-4-Turbo)预先生成,SLM 在训练中仅作为评估者和推理者。
4.2 算法1:余弦衰减采样(简要翻译)
Algorithm 1: Dynamic CoT selection via Cosine decay
输入:当前训练步cur
,总步数total
,候选 CoT 集合Candidates
(大小 N)
输出:选中的 CoT 子集Selected
- 计算归一化进度:
t ← cur / total
- 计算阈值:
threshold ← 0.5 × (1 + cos(π × t))
- 初始化
Selected ← ∅
- 对每条候选 CoT:
- 采样随机数
prob ~ Uniform(0,1)
- 若
prob < threshold
,则从Candidates
中随机选一条加入Selected
,并从候选集中移除- 返回
Selected
该算法确保训练初期(t≈0)高概率输入 CoT(threshold≈1),训练末期(t≈1)几乎不输入 CoT(threshold≈0),实现“脚手架渐撤”。
5.Guided CoT Distillation 实现机制详解
Guided CoT Distillation(引导式思维链蒸馏)是 ReaLM 框架中用于提升小语言模型(SLM)在垂直领域泛化能力的核心技术。
其目标是将领域专家知识(如商业规则、行业逻辑)内化到模型参数中,使 SLM 能在没有显式规则输入的情况下,自主遵循这些规则进行推理。
5.1. 核心思想与动机
传统 CoT 蒸馏方法(如 LLMs-as-Instructor)直接使用通用 LLM 生成的推理链进行训练,容易继承教师模型的通用偏见,在复杂垂直领域(如广告相关性判断)表现不佳。
ReaLM 的创新在于:在生成外部 CoT 时,以一定概率将专家撰写的评论(expert comment),从而生成 “规则感知型 CoT”(rule-aware CoT)。通过这种方式,SLM 在训练中不仅能学习“如何推理”,还能学习“在特定领域下应遵循哪些规则”。
原文 Section 2.3:
“To help the model encode domain-specific rules and knowledge in its parameters, we generate rule-aware CoTs using a general teacher LLM by injecting expert comments into prompts with a certain probability.”
5.2. 实现流程
步骤 1:构建带专家评论的工业数据集
作者构建了一个名为 Ad Search Relevance Prediction 的工业数据集,每条样本为四元组:
⟨query,ad_info,label,comment⟩ \langle \text{query}, \text{ad\_info}, \text{label}, \text{comment} \rangle ⟨query,ad_info,label,comment⟩
其中:
- query:用户搜索词;
- ad_info:广告内容;
- label:三分类标签(不相关 / 部分相关 / 相关);
- comment:专家撰写的推理依据,包含用户意图、评估过程、结论。
示例(来自原文表A3):
字段 | 内容 |
---|---|
Query | 如何解决关于蜗牛爬树的数学问题? |
Ad_info | 该视频推广作业帮App,这是一款通过互动方式帮助学生记忆古典诗歌的教育工具。 |
Label | 不相关 |
Comment | [用户意图]:用户希望找到“蜗牛爬树”这一数学问题的解决方案。 [评估过程]:该广告展示了作业帮的古诗学习功能,但未展示任何与数学相关的内容。 [结论]:该广告未能满足用户的特定需求 → 不相关。 |
步骤 2:在 LLM 提示词中注入专家评论
调用 GPT-4-Turbo 生成 CoT 时,以一定概率将 comment
拼接到提示词中,作为上下文指导。
完整提示词构造(基于原文表A5重构):
[Post-view Search]
用户查询:如何解决关于蜗牛爬树的数学问题?
广告信息:本视频推广作业帮App,这是一款通过互动方式帮助学生记忆古典诗歌的教育工具。
[可选:专家评论]
[用户意图]:用户希望找到“蜗牛爬树”这一数学问题的解决方案。
[评估过程]:该广告推广的是作业帮的古诗学习功能,但未展示任何与数学相关的内容。
[结论]:该广告未能满足用户的特定需求 → 不相关。请分析用户查询与广告的相关性。请逐步思考。
关键点:
[Optional: Expert Comment]
并非每次都出现,而是以预设概率(如 50%)随机注入,防止模型对规则过度依赖。
步骤 3:生成规则感知型 CoT
GPT-4-Turbo 基于上述提示生成 CoT。当 comment
存在时,生成的 CoT 会自然融入规则逻辑。
对比输出示例:
-
**普通 CoT **(无 comment 注入):
“Zuoyebang 是一个教育类 App,可能包含解题功能,因此相关。” → 错误结论
-
**规则感知 CoT **(有 comment 注入):
“用户的查询是关于‘蜗牛爬树’的数学题,而广告仅展示古诗背诵功能,未涉及数学解题或作业辅导,因此无法满足用户核心需求,属于不相关。” → 正确结论
步骤 4:用于 SLM 训练
这些 规则感知型 CoT 被纳入 MRPV 框架,作为外部参考路径输入给 SLM。SLM 在强化学习中学习:
- 如何从多个 CoT 中辨别有效推理;
- 如何在无外部规则输入时,复现这种基于规则的判断逻辑。
原文实验验证(表5):
在工业数据集上,引入专家评论后,ReaLM-Zero 的 F1 从 81.40 提升至 81.80,证明该方法有效提升了模型对领域规则的理解和泛化能力。
6. 实验发现
6.1 主要结果(表1)
- 有外部 CoT 时:ReaLM(无 EAAI)在 GSM8K 上达 96.0%,显著优于 CoT-Synthesizer(87.0%);
- 无外部 CoT 时:完整 ReaLM 仍达 94.4%,证明 EAAI 有效。
6.2 错误分析(表4)
- MRPV 的 SAME Err(重复 LLM 错误)为 1.8,远低于 MRPV-Reject(2.8);
- 证明保留错误路径有助于避免重复错误。
6.3 错误 CoT 比例影响(图3)
- 当错误 CoT 比例在 20%–80% 时,性能高于全对(0%)或全错(100%);
- 说明多样性比纯正确性更重要。
7. 个人评价与改进思考
【我认为,MRPV 的评估任务可能引入噪声】
MRPV 要求 SLM 对每条 CoT 做二分类(正确/错误),这本身是一个高难度子任务。在 CoT 复杂时(如数学证明),SLM 可能因无法判断 CoT 而随机猜测,导致 Stage 2 奖励失真。
改进建议:可引入软标签(soft label),如基于 CoT 与标准答案的语义相似度,而非硬性二分。
【我认为,EAAI 的余弦衰减过于简单】
余弦衰减是预设 schedule,未考虑任务难度差异。简单任务可能早期就应撤掉 CoT,复杂任务则需更久。
改进建议:可采用动态 curriculum,根据模型在验证集上的自主推理准确率,自适应调整 CoT 输入概率。
【我认为,MRPV 与 Self-Consistency 有互补潜力】
Self-Consistency(Wang et al., 2022)通过投票聚合多个 CoT,而 MRPV 通过对比学习。二者可结合:先用 MRPV 训练一个能评估 CoT 质量的模型,再用该模型对 Self-Consistency 的 CoT 加权投票。