当前位置: 首页 > news >正文

RAG 新框架 MaskSearch

核心目标:让 AI 更聪明地“找答案”

问题

当前大语言模型(LLM)容易“一本正经地胡说八道”(幻觉),特别是当问题超出其训练数据范围或需要最新信息时。这是因为它们的知识在上线后就冻结了,不会主动查资料。

目标

让 AI 在面对未知或复杂问题时,能像人类一样主动去“查资料”(检索),并结合查到的信息进行“思考”(多步推理),最终给出准确答案。

解决方案:

MaskSearch 是一个检索增强的预训练框架,旨在从根本上提升模型(尤其是小模型)的搜索和推理能力。

MaskSearch 的核心创新

1. 新预训练任务:检索增强掩码预测 (RAMP) - “教 AI 做填空题,但要查资料才能填”

传统怎么做?

LLM 预训练有个经典任务叫“掩码语言建模”(MLM),就是遮住句子中一些词([MASK]),让模型猜被遮住的词是什么。模型主要依赖自己记忆的知识。

RAMP 怎么做?

MaskSearch 升级了这个任务:关键区别: 它要求模型在填空时,必须去调用搜索引擎查找外部信息!不能只靠“老本”。

过程模拟:
  • 分析问题: 模型看到带掩码的句子(如“Andrew Barto received his [MASK] with distinction in [MASK] from the University of Michigan in 1970.”),理解需要找什么(这里找“学位”和“专业”)。
  • 主动搜索: 模型生成搜索关键词(如“Andrew Barto University of Michigan 1970 degree”),调用搜索引擎获取结果。
  • 信息提取与推理: 模型阅读搜索结果,找到关键信息(如搜索结果提到“B.S., math”)。
  • 填补答案: 将找到的信息(B.S. 和 math)填回掩码位置,形成完整句子。
核心思想:

通过在预训练阶段就强迫模型学习“遇到不知道的就去查”,并练习“查到了怎么用”,从根本上培养其主动检索基于检索结果的推理能力。

2. 高质量数据生成:多智能体协同 & 自进化蒸馏 - “如何教得更好?找几个 AI 老师一起备课”

挑战:

要训练模型学会“搜索+推理”,需要大量高质量的“标准答案”示例(即包含搜索步骤和推理过程的“思维链”数据)。人工标注太贵。

解决方案:
多智能体系统:

构建一个由多个“AI 角色”组成的虚拟团队:

  • 规划器: 分析问题,决定需要搜索什么?分几步?
  • 重写器: 把规划好的搜索意图,改写成有效的搜索关键词。
  • 观察器: 分析搜索引擎返回的结果,提取有用信息。
  • (最终裁判): 一个大模型判断最终生成的答案和思维链是否正确。
协同工作流程:

这几个“AI 老师”分工合作,共同生成一条包含“问题 -> 搜索关键词 -> 搜索结果摘要 -> 推理过程 -> 最终答案”的完整思维链。只有被裁判判定为正确的思维链才会被保留下来用于训练。

自进化蒸馏:
  • 先用初始数据(可能是人工或上述多智能体生成的)训练一个教师模型
  • 让这个教师模型去生成新的思维链数据。
  • 用新数据训练一个更好的教师模型(学生变老师)。
  • 重复步骤 2 和 3,数据质量和教师模型能力在迭代中不断提升(自进化)。
核心思想:

用多个专门的“小专家”合作生成复杂数据,并用“老带新”不断迭代优化数据质量,高效低成本地创造出大量优质训练样本。

3. 强化学习优化:DAPO & 混合奖励 - “考得好有奖励!格式要对,内容更要准”

挑战:

监督学习(SFT)教了模型怎么做,但如何让它做得更好、更精确?特别是面对复杂的多步推理和搜索任务。

解决方案:强化学习 (RL)
动态采样策略优化 (DAPO):

一种高效的 RL 算法。简单理解就是动态地选择更有价值的训练样本进行学习,避免无效尝试。

混合奖励机制:

给模型的“答案”打分时,考虑两个维度

  • 格式奖励: 模型输出是否符合规定的格式要求?(比如是否包含必需的搜索关键词、推理步骤等)。保证结构清晰。
  • 回答奖励: 模型最终给出的答案内容是否正确?这里用了一个强大的裁判模型(如 Qwen2.5-72B)来评估生成答案与真实答案的一致性。保证内容准确。
效果:

这种组合奖励引导模型在保证流程规范(会搜索、会推理)的同时,更关注最终结果的准确性,显著提升了在复杂任务上的表现。

4. 课程学习策略 - “学习要循序渐进,先易后难”

方法:

根据句子中被 [MASK] 遮盖的数量来划分任务难度。

  • 简单任务: 句子中只有 1 个 [MASK]。
  • 中等任务: 句子中有 2-3 个 [MASK]。
  • 困难任务: 句子中有 4 个或更多 [MASK]。
训练流程:

先让模型在大量简单任务上掌握基础的搜索和填空能力。然后逐步过渡到中等困难任务,学习处理更复杂的、需要多步推理才能填完所有空的情况。

核心思想:

模仿人类学习过程,从基础开始,逐步增加难度,帮助模型更扎实、更稳健地构建复杂的搜索推理能力。

效果如何?小模型的大逆袭!

显著提升

经过 MaskSearch 训练后,即使是像 Qwen2.5-1.5BLLaMA-3-2B 这样相对较小的模型,在需要多步检索推理的开放域问答任务(如 HotpotQA, Bamboogle)上,性能得到了大幅提升(例如 Bamboogle 上提升超过 11.78%)。

媲美大模型

这些小模型的表现甚至能接近或媲美参数量大得多的模型。证明了 MaskSearch 能有效挖掘小模型的潜力。

强化学习更优

在复杂的多跳问答任务中,结合了强化学习(RL)训练的模型表现优于仅用监督微调(SFT)的模型,证明了 RL 优化策略的有效性。

通用性好

该框架在不同规模的模型(小到大)上都能带来提升,并且效果稳定。

总结

  • MaskSearch 是啥? 一个让 AI 学会“不懂就查资料,查完还要动脑筋”的训练方法。
  • 怎么教的?
    • 布置特殊的“填空题”(RAMP),逼着 AI 去网上查资料才能填。
    • 找几个“AI 小老师”(多智能体)合作编高质量的“解题步骤说明书”(思维链数据),并且让“老 AI 老师”带“新 AI 老师”不断优化教材(自进化蒸馏)。
    • 考试评分有讲究(强化学习):不光看答案对不对(内容奖励),还要看解题步骤规不规范(格式奖励),用巧妙的算法(DAPO)高效学习。
    • 学习有步骤(课程学习):先做简单的题(遮一个空),再做难的题(遮好几个空)。
  • 效果怎么样? 小个子(小模型)也能打!练完之后,回答问题又快又准,特别是那种需要查好几次资料、想好几步的问题,表现蹭蹭涨,甚至能挑战大个子(大模型)。

展望:你希望 AI 在哪些场景具备“主动搜索 + 推理能力”?

  • 最新信息查询: 实时新闻、股票行情、科技进展、政策法规更新。
  • 深度事实核查: 验证信息真伪,识别谣言和虚假信息。
  • 复杂问题解答: 多步骤的学术研究、工程技术难题、商业决策分析。
  • 个性化推荐与建议: 结合用户背景和实时信息,提供旅行规划、健康咨询、购物建议等。
  • 教育辅导: 解答学生开放式问题,引导探索式学习。
  • 客服与支持: 处理需要查找知识库和最新文档的复杂用户咨询。

MaskSearch 通过创新的预训练任务、高效的数据生成方法和优化策略,为构建更“聪明”、更可靠、能主动获取知识并深度思考的 AI 助理迈出了坚实一步,尤其让小模型释放了巨大潜力。


https://mp.weixin.qq.com/s/jabNf48U-HoN9W648dmX2Q

相关文章:

  • 可编辑前端列表页面,让你的用户直接粘贴录入数据
  • 谷歌浏览器插件
  • 用 LoRA 对 Qwen2.5-VL 模型进行SFT - LoRA微调流程
  • WebRTC(二):工作机制
  • OS12.【Linux】gcc和g++以及动静态链接
  • 【深尚想】SX1276IMLTRT LoRa射频收发器芯片 物联网 电子元器件解析
  • uniapp自定义导航栏,采用粘性定位
  • 智慧园区综合运营管理平台(SmartPark)和安全EHS平台的分工与协作
  • 金属矫平机:塑造平整与精度的工业利器
  • C++ 引用介绍
  • “域名无法解析”?服务器端DNS故障排查终极指南:从dig/nslookup到系统resolv.conf配置
  • 如何写一份实用的技术文档?——以API接口文档为例
  • 【QT】通讯类HttpAPI:获取MAC、主机IP、端口IP有效性判断
  • 深度解析qemu-guest-agent:架构原理、核心场景与部署实践
  • 【SQL学习笔记2】深入理解 CASE WHEN 的魔法用法
  • 代理服务器选型与性能对比(Nginx vs Pingora vs Envoy vs HAProxy)
  • STL 3算法
  • 在Jenkins上配置邮箱通知
  • 全网首发!AgentCPM-GUI通过adb操控手机教程
  • JAVA语言的学习(Day_1)
  • wordpress侧栏菜单加上序号/seo投放营销
  • 网上服装商城网站建设方案策划/网络推销平台有哪些
  • 浏览器网页截图快捷键/seo牛人
  • 理性仁网站如何做估值分析/seo全网营销公司
  • 超短链接生成器/扬州seo推广
  • 多语言网站/营销网络营销