当前位置：首页 > news >正文

RAG 新框架 MaskSearch

news 2025/9/24 15:15:23

核心目标：让 AI 更聪明地“找答案”

问题

当前大语言模型（LLM）容易“一本正经地胡说八道”（幻觉），特别是当问题超出其训练数据范围或需要最新信息时。这是因为它们的知识在上线后就冻结了，不会主动查资料。

目标

让 AI 在面对未知或复杂问题时，能像人类一样主动去“查资料”（检索），并结合查到的信息进行“思考”（多步推理），最终给出准确答案。

解决方案：

MaskSearch 是一个检索增强的预训练框架，旨在从根本上提升模型（尤其是小模型）的搜索和推理能力。

MaskSearch 的核心创新

1. 新预训练任务：检索增强掩码预测 (RAMP) - “教 AI 做填空题，但要查资料才能填”

传统怎么做？

LLM 预训练有个经典任务叫“掩码语言建模”（MLM），就是遮住句子中一些词（[MASK]），让模型猜被遮住的词是什么。模型主要依赖自己记忆的知识。

RAMP 怎么做？

MaskSearch 升级了这个任务：关键区别： 它要求模型在填空时，必须去调用搜索引擎查找外部信息！不能只靠“老本”。

过程模拟：

分析问题： 模型看到带掩码的句子（如“Andrew Barto received his [MASK] with distinction in [MASK] from the University of Michigan in 1970.”），理解需要找什么（这里找“学位”和“专业”）。
主动搜索： 模型生成搜索关键词（如“Andrew Barto University of Michigan 1970 degree”），调用搜索引擎获取结果。
信息提取与推理： 模型阅读搜索结果，找到关键信息（如搜索结果提到“B.S., math”）。
填补答案： 将找到的信息（B.S. 和 math）填回掩码位置，形成完整句子。

核心思想：

通过在预训练阶段就强迫模型学习“遇到不知道的就去查”，并练习“查到了怎么用”，从根本上培养其主动检索和基于检索结果的推理能力。

2. 高质量数据生成：多智能体协同 & 自进化蒸馏 - “如何教得更好？找几个 AI 老师一起备课”

挑战：

要训练模型学会“搜索+推理”，需要大量高质量的“标准答案”示例（即包含搜索步骤和推理过程的“思维链”数据）。人工标注太贵。

解决方案：

多智能体系统：

构建一个由多个“AI 角色”组成的虚拟团队：

规划器： 分析问题，决定需要搜索什么？分几步？
重写器： 把规划好的搜索意图，改写成有效的搜索关键词。
观察器： 分析搜索引擎返回的结果，提取有用信息。
(最终裁判)： 一个大模型判断最终生成的答案和思维链是否正确。

协同工作流程：

这几个“AI 老师”分工合作，共同生成一条包含“问题 -> 搜索关键词 -> 搜索结果摘要 -> 推理过程 -> 最终答案”的完整思维链。只有被裁判判定为正确的思维链才会被保留下来用于训练。

自进化蒸馏：

先用初始数据（可能是人工或上述多智能体生成的）训练一个教师模型。
让这个教师模型去生成新的思维链数据。
用新数据训练一个更好的教师模型（学生变老师）。
重复步骤 2 和 3，数据质量和教师模型能力在迭代中不断提升（自进化）。

核心思想：

用多个专门的“小专家”合作生成复杂数据，并用“老带新”不断迭代优化数据质量，高效低成本地创造出大量优质训练样本。

3. 强化学习优化：DAPO & 混合奖励 - “考得好有奖励！格式要对，内容更要准”

挑战：

监督学习（SFT）教了模型怎么做，但如何让它做得更好、更精确？特别是面对复杂的多步推理和搜索任务。

解决方案：强化学习 (RL)

动态采样策略优化 (DAPO)：

一种高效的 RL 算法。简单理解就是动态地选择更有价值的训练样本进行学习，避免无效尝试。

混合奖励机制：

给模型的“答案”打分时，考虑两个维度：

格式奖励： 模型输出是否符合规定的格式要求？（比如是否包含必需的搜索关键词、推理步骤等）。保证结构清晰。
回答奖励： 模型最终给出的答案内容是否正确？这里用了一个强大的裁判模型（如 Qwen2.5-72B）来评估生成答案与真实答案的一致性。保证内容准确。

效果：

这种组合奖励引导模型在保证流程规范（会搜索、会推理）的同时，更关注最终结果的准确性，显著提升了在复杂任务上的表现。

4. 课程学习策略 - “学习要循序渐进，先易后难”

方法：

根据句子中被 [MASK] 遮盖的数量来划分任务难度。

简单任务： 句子中只有 1 个 [MASK]。
中等任务： 句子中有 2-3 个 [MASK]。
困难任务： 句子中有 4 个或更多 [MASK]。

训练流程：

先让模型在大量简单任务上掌握基础的搜索和填空能力。然后逐步过渡到中等和困难任务，学习处理更复杂的、需要多步推理才能填完所有空的情况。

核心思想：

模仿人类学习过程，从基础开始，逐步增加难度，帮助模型更扎实、更稳健地构建复杂的搜索推理能力。

效果如何？小模型的大逆袭！

显著提升

经过 MaskSearch 训练后，即使是像 Qwen2.5-1.5B 或 LLaMA-3-2B 这样相对较小的模型，在需要多步检索推理的开放域问答任务（如 HotpotQA, Bamboogle）上，性能得到了大幅提升（例如 Bamboogle 上提升超过 11.78%）。

媲美大模型

这些小模型的表现甚至能接近或媲美参数量大得多的模型。证明了 MaskSearch 能有效挖掘小模型的潜力。

强化学习更优

在复杂的多跳问答任务中，结合了强化学习（RL）训练的模型表现优于仅用监督微调（SFT）的模型，证明了 RL 优化策略的有效性。

通用性好

该框架在不同规模的模型（小到大）上都能带来提升，并且效果稳定。

总结

MaskSearch 是啥？ 一个让 AI 学会“不懂就查资料，查完还要动脑筋”的训练方法。
怎么教的？
- 布置特殊的“填空题”（RAMP），逼着 AI 去网上查资料才能填。
- 找几个“AI 小老师”（多智能体）合作编高质量的“解题步骤说明书”（思维链数据），并且让“老 AI 老师”带“新 AI 老师”不断优化教材（自进化蒸馏）。
- 考试评分有讲究（强化学习）：不光看答案对不对（内容奖励），还要看解题步骤规不规范（格式奖励），用巧妙的算法（DAPO）高效学习。
- 学习有步骤（课程学习）：先做简单的题（遮一个空），再做难的题（遮好几个空）。
效果怎么样？ 小个子（小模型）也能打！练完之后，回答问题又快又准，特别是那种需要查好几次资料、想好几步的问题，表现蹭蹭涨，甚至能挑战大个子（大模型）。