RAG 新框架 MaskSearch
核心目标:让 AI 更聪明地“找答案”
问题
当前大语言模型(LLM)容易“一本正经地胡说八道”(幻觉),特别是当问题超出其训练数据范围或需要最新信息时。这是因为它们的知识在上线后就冻结了,不会主动查资料。
目标
让 AI 在面对未知或复杂问题时,能像人类一样主动去“查资料”(检索),并结合查到的信息进行“思考”(多步推理),最终给出准确答案。
解决方案:
MaskSearch 是一个检索增强的预训练框架,旨在从根本上提升模型(尤其是小模型)的搜索和推理能力。
MaskSearch 的核心创新
1. 新预训练任务:检索增强掩码预测 (RAMP) - “教 AI 做填空题,但要查资料才能填”
传统怎么做?
LLM 预训练有个经典任务叫“掩码语言建模”(MLM),就是遮住句子中一些词([MASK]),让模型猜被遮住的词是什么。模型主要依赖自己记忆的知识。
RAMP 怎么做?
MaskSearch 升级了这个任务:关键区别: 它要求模型在填空时,必须去调用搜索引擎查找外部信息!不能只靠“老本”。
过程模拟:
- 分析问题: 模型看到带掩码的句子(如“Andrew Barto received his [MASK] with distinction in [MASK] from the University of Michigan in 1970.”),理解需要找什么(这里找“学位”和“专业”)。
- 主动搜索: 模型生成搜索关键词(如“Andrew Barto University of Michigan 1970 degree”),调用搜索引擎获取结果。
- 信息提取与推理: 模型阅读搜索结果,找到关键信息(如搜索结果提到“B.S., math”)。
- 填补答案: 将找到的信息(B.S. 和 math)填回掩码位置,形成完整句子。
核心思想:
通过在预训练阶段就强迫模型学习“遇到不知道的就去查”,并练习“查到了怎么用”,从根本上培养其主动检索和基于检索结果的推理能力。
2. 高质量数据生成:多智能体协同 & 自进化蒸馏 - “如何教得更好?找几个 AI 老师一起备课”
挑战:
要训练模型学会“搜索+推理”,需要大量高质量的“标准答案”示例(即包含搜索步骤和推理过程的“思维链”数据)。人工标注太贵。
解决方案:
多智能体系统:
构建一个由多个“AI 角色”组成的虚拟团队:
- 规划器: 分析问题,决定需要搜索什么?分几步?
- 重写器: 把规划好的搜索意图,改写成有效的搜索关键词。
- 观察器: 分析搜索引擎返回的结果,提取有用信息。
- (最终裁判): 一个大模型判断最终生成的答案和思维链是否正确。
协同工作流程:
这几个“AI 老师”分工合作,共同生成一条包含“问题 -> 搜索关键词 -> 搜索结果摘要 -> 推理过程 -> 最终答案”的完整思维链。只有被裁判判定为正确的思维链才会被保留下来用于训练。
自进化蒸馏:
- 先用初始数据(可能是人工或上述多智能体生成的)训练一个教师模型。
- 让这个教师模型去生成新的思维链数据。
- 用新数据训练一个更好的教师模型(学生变老师)。
- 重复步骤 2 和 3,数据质量和教师模型能力在迭代中不断提升(自进化)。
核心思想:
用多个专门的“小专家”合作生成复杂数据,并用“老带新”不断迭代优化数据质量,高效低成本地创造出大量优质训练样本。
3. 强化学习优化:DAPO & 混合奖励 - “考得好有奖励!格式要对,内容更要准”
挑战:
监督学习(SFT)教了模型怎么做,但如何让它做得更好、更精确?特别是面对复杂的多步推理和搜索任务。
解决方案:强化学习 (RL)
动态采样策略优化 (DAPO):
一种高效的 RL 算法。简单理解就是动态地选择更有价值的训练样本进行学习,避免无效尝试。
混合奖励机制:
给模型的“答案”打分时,考虑两个维度:
- 格式奖励: 模型输出是否符合规定的格式要求?(比如是否包含必需的搜索关键词、推理步骤等)。保证结构清晰。
- 回答奖励: 模型最终给出的答案内容是否正确?这里用了一个强大的裁判模型(如 Qwen2.5-72B)来评估生成答案与真实答案的一致性。保证内容准确。
效果:
这种组合奖励引导模型在保证流程规范(会搜索、会推理)的同时,更关注最终结果的准确性,显著提升了在复杂任务上的表现。
4. 课程学习策略 - “学习要循序渐进,先易后难”
方法:
根据句子中被 [MASK] 遮盖的数量来划分任务难度。
- 简单任务: 句子中只有 1 个 [MASK]。
- 中等任务: 句子中有 2-3 个 [MASK]。
- 困难任务: 句子中有 4 个或更多 [MASK]。
训练流程:
先让模型在大量简单任务上掌握基础的搜索和填空能力。然后逐步过渡到中等和困难任务,学习处理更复杂的、需要多步推理才能填完所有空的情况。
核心思想:
模仿人类学习过程,从基础开始,逐步增加难度,帮助模型更扎实、更稳健地构建复杂的搜索推理能力。
效果如何?小模型的大逆袭!
显著提升
经过 MaskSearch 训练后,即使是像 Qwen2.5-1.5B 或 LLaMA-3-2B 这样相对较小的模型,在需要多步检索推理的开放域问答任务(如 HotpotQA, Bamboogle)上,性能得到了大幅提升(例如 Bamboogle 上提升超过 11.78%)。
媲美大模型
这些小模型的表现甚至能接近或媲美参数量大得多的模型。证明了 MaskSearch 能有效挖掘小模型的潜力。
强化学习更优
在复杂的多跳问答任务中,结合了强化学习(RL)训练的模型表现优于仅用监督微调(SFT)的模型,证明了 RL 优化策略的有效性。
通用性好
该框架在不同规模的模型(小到大)上都能带来提升,并且效果稳定。
总结
- MaskSearch 是啥? 一个让 AI 学会“不懂就查资料,查完还要动脑筋”的训练方法。
- 怎么教的?
- 布置特殊的“填空题”(RAMP),逼着 AI 去网上查资料才能填。
- 找几个“AI 小老师”(多智能体)合作编高质量的“解题步骤说明书”(思维链数据),并且让“老 AI 老师”带“新 AI 老师”不断优化教材(自进化蒸馏)。
- 考试评分有讲究(强化学习):不光看答案对不对(内容奖励),还要看解题步骤规不规范(格式奖励),用巧妙的算法(DAPO)高效学习。
- 学习有步骤(课程学习):先做简单的题(遮一个空),再做难的题(遮好几个空)。
- 效果怎么样? 小个子(小模型)也能打!练完之后,回答问题又快又准,特别是那种需要查好几次资料、想好几步的问题,表现蹭蹭涨,甚至能挑战大个子(大模型)。
展望:你希望 AI 在哪些场景具备“主动搜索 + 推理能力”?
- 最新信息查询: 实时新闻、股票行情、科技进展、政策法规更新。
- 深度事实核查: 验证信息真伪,识别谣言和虚假信息。
- 复杂问题解答: 多步骤的学术研究、工程技术难题、商业决策分析。
- 个性化推荐与建议: 结合用户背景和实时信息,提供旅行规划、健康咨询、购物建议等。
- 教育辅导: 解答学生开放式问题,引导探索式学习。
- 客服与支持: 处理需要查找知识库和最新文档的复杂用户咨询。
MaskSearch 通过创新的预训练任务、高效的数据生成方法和优化策略,为构建更“聪明”、更可靠、能主动获取知识并深度思考的 AI 助理迈出了坚实一步,尤其让小模型释放了巨大潜力。
https://mp.weixin.qq.com/s/jabNf48U-HoN9W648dmX2Q