当前位置: 首页 > news >正文

【多智能体强化学习】构建端到端的自主信息检索代理

在这里插入图片描述

😊你好,我是小航,一个正在变秃、变强的文艺倾年。
🔔本专栏《人工智能》旨在记录最新的科研前沿,包括大模型、具身智能、智能体等相关领域,期待与你一同探索、学习、进步,一起卷起来叭!
🚩Paper:WebDancer: Towards Autonomous Information Seeking Agency
💻时间:202505
💭推荐指数:🌟🌟🌟🌟🌟

往期精彩专栏内容,欢迎订阅:

🔗【多智能体】20250611:基于嵌套进化算法的多代理工作流
🔗【多智能体】20250610:受木偶戏启发实现多智能体协作编排
🔗【多智能体】20250609:基于LLM自进化多学科团队医疗咨询多智能体框架
🔗【具身智能体】20250608:EvoAgent:针对长时程任务具有持续世界模型的自主进化智能体

创新性

  1. 系统化的框架:论文提出了一个系统的、端到端的框架,用于从头开始构建多步信息检索网络代理。该框架包括四个关键阶段:数据构建、轨迹采样、监督微调和强化学习。
  2. 高质量数据集合成:通过两种方法自动合成高质量的QA数据集:CRAWLQA和E2HQA,这些数据集能够激发多步推理和任务分解。
  3. 两阶段训练管道:采用拒绝采样微调(RFT)与后续的基于策略的强化学习(RL)相结合的两阶段训练方法,提高了数据效率和策略鲁棒性。
  4. ReAct框架的应用:利用ReAct框架将推理与行动紧密结合,促进了交互环境中的有效学习和泛化。
  5. 多种工具的使用:在轨迹采样阶段,限制了动作空间为两种常用的网络信息检索工具:搜索查询和点击。
  6. 强化学习的动态采样机制:采用DAPO算法,其动态采样机制能够有效利用在SFT阶段未被充分利用的QA对,从而提高数据效率和策略鲁棒性。
  7. 实验验证:在GAIA和WebWalkerQA两个具有挑战性的信息检索基准上进行了广泛的实验,展示了WebDancer的有效性和鲁棒性。

补充这里可能会存在的疑点
WebDancer代理在数据集合成方面采取了哪些具体策略?这些策略如何提高代理的性能?

WebDancer代理在数据集合成方面采取了两种主要策略:

  1. CRAWLQA(通过爬取网页构建深度查询):首先,从官方和知识性网站收集根URL,并通过递归导航子页面来模拟人类浏览行为。然后,使用GPT-4o从收集的内容中合成问答对。为了确保问题的特异性和相关性,使用提示技术让LLM生成特定类型(如COUNT、MULTI-HOP、INTERSECTION)的问题。
  2. E2HQA(通过增强易到难的问答对合成):从SimpleQA风格的问答对开始,每个答案是一个简洁的事实寻求实体。然后,使用LLM构建基于该实体的查询,通过搜索引擎获取相关信息,再使用另一个LLM重构查询以替换原始实体。通过不断搜索和调整,将简单问题逐步转化为复杂的多步问题。

WebDancer代理在训练过程中采用了哪些关键步骤?这些步骤如何帮助代理更好地适应复杂
的信息检索任务?

WebDancer代理的训练过程包括以下关键步骤:

  1. 轨迹采样:使用两种提示策略生成高质量的轨迹,包括短链式思维(Short-CoT)和长链式思维(Long-CoT)。短链式思维使用强大的指令LLM生成,而长链式思维则利用推理模型(LRM)在每个步骤中进行自主决策。
  2. 监督微调(SFT):在SFT阶段,使用监督学习对策略模型进行微调,以捕捉完整的代理轨迹。损失函数通过过滤掉外部反馈的标记,确保仅计算代理的自主决策步骤。SFT阶段为后续的RL阶段提供了强大的初始化。
  3. 强化学习(RL):在RL阶段,采用解耦剪辑和动态采样策略优化(DAPO)算法。DAPO算法通过动态采样机制有效地利用在SFT阶段未被充分利用的问答对,从而提高数据效率和策略鲁棒性。奖励设计包括格式奖励和答案奖励,最终奖励函数结合了这两者。

研究背景

  1. 研究问题:这篇文章要解决的问题是如何构建自主的多步骤信息检索代理。具体来说,研究如何从数据中心和训练阶段的角度,构建端到端的自主信息检索代理。
  2. 研究难点:该问题的研究难点包括:获取高质量、细粒度的浏览数据以反映用户意图和丰富的交互上下文;构建支持长期推理和任务分解的可靠轨迹;设计可扩展且具有泛化能力的训练策略,使网络代理能够在分布外的网页环境中、复杂的交互模式和长期目标下表现出稳健的行为。
  3. 相关工作:该问题的研究相关工作包括:直接利用提示工程技术指导大型语言模型(LLMs)或大型推理模型(LRMs)执行复杂任务通过监督微调(SFT)或强化学习(RL)将搜索或浏览器功能整合到网络代理中。现有方法的训练和评估数据集相对简单,无法捕捉现实世界的挑战。

研究方法

这篇论文提出了一个系统化的框架,用于从头开始构建端到端的多步骤信息检索代理。具体来说,

  1. 数据集合成:首先,构建高质量的深度信息检索问答对数据集。该过程包括两个方面:通过爬取网页构建深度查询(CRAWLQA),以及通过增强易到难的问答对合成(E2HQA)来激励从弱代理到强代理的转变。在这里插入图片描述
  2. 轨迹采样:其次,使用两种提示策略生成高质量的轨迹:一种是使用强大的指令LLM进行短链式思维(Short-CoT),另一种是利用LRM进行长链式思维(Long-CoT)。这些轨迹包含短或长的思考内容
  3. 监督微调:然后,采用拒绝采样微调(RFT)与后续的基于策略的强化学习(RL)相结合的两阶段方法。在SFT阶段,使用监督学习对策略模型进行微调,以捕捉完整的代理轨迹。损失函数如下:
    在这里插入图片描述
    其中, I [ x i e q o ] I[x_{i}eq o] I[xieqo]过滤掉对应外部反馈的标记,确保损失仅计算代理的自主决策步骤。
  4. 强化学习:最后,在RL阶段,采用解耦剪辑和动态采样策略优化(DAPO)算法。DAPO算法通过动态采样机制有效地利用在SFT阶段未被充分利用的问答对,从而提高数据效率和策略鲁棒性。奖
    励设计主要包括格式奖励和答案奖励,最终奖励函数如下: R ( y ^ i , y ) = 0.1 ∗ s c o r e format + 0.9 ∗ s c o r e answer R\left(\hat{y}{i}, y\right)=0.1* score{\text{format}}+0.9*score_{\text{answer}} R(y^i,y)=0.1scoreformat+0.9scoreanswer

实验设计

  1. 数据集:在GAIA和WebWalkerQA两个深度信息检索基准上进行评估。使用LLM作为评委,采用Pass@1指标进行评估。数据集包括GAIA的103个问题和WebWalkerQA的680个问题。
  2. 模型:使用Qwen-7B、Qwen-32B和QwQ-32B模型进行实验。Qwen-7B和Qwen-32B在Short-CoT数据集上训练,QwQ-32B在Long-CoT数据集上训练。
  3. 实现细节:使用ReAct框架实现代理,构建评委模型 M j M_{j} Mj,并设计奖励提示。RL阶段采用Verl支持RL算法和回滚。回滚次数为16次,推理参数设置为温度=0.6,topp=0.95。

结果与分析

  1. 主要结果:在GAIA和WebWalkerQA基准上,没有代理能力(NoAgency)的框架表现较差,突显了主动信息检索和代理决策的必要性。闭源代理系统OpenAIDR通过端到端RL训练取得了最高分。开源框架中,基于强推理模型的代理(如QwQ-32B)一致优于其非代理对应物,证明了在代理构建中利用推理专用模型的有效性。在这里插入图片描述
  2. 更具挑战性的基准:在BrowseComp(En.)和BrowseComp-zh(Zh.)两个更具挑战性的数据集上,WebDancer表现出一致的强劲性能,突显了其处理复杂推理和信息检索任务的鲁棒性和有效性。
  3. 详细分析:在GAIA数据集上,RL显著提高了Pass@3和Cons@3。高质量的轨迹数据对于代理的有效SFT至关重要SFT对于冷启动至关重要,因为代理任务需要强大的多步骤多工具指令跟随能力。RL实现了更长的推理过程和更复杂的代理动作。在这里插入图片描述

总体结论

这篇论文提出了一个系统化的框架,用于从头开始构建端到端的多步骤信息检索代理。通过引入可扩
展的问答数据合成方法和结合SFT和基于策略的RL的两阶段训练管道,WebDancer代理在GAIA和WebWalkerQA上取得了强劲的性能。这些发现突显了所提出的训练策略的重要性,并为代理训练的关键方面提供了宝贵的见解。未来的研究将致力于开发更先进的工具、扩展任务范围和优化数据利用策略,以进一步提高代理的能力。

📌 [ 笔者 ]   文艺倾年
📃 [ 更新 ]   2025.6.15
❌ [ 勘误 ]   /* 暂无 */
📜 [ 声明 ]   由于作者水平有限,本文有错误和不准确之处在所难免,本人也很想知道这些错误,恳望读者批评指正!

在这里插入图片描述

相关文章:

  • 【Docker基础】Docker核心概念:命名空间(Namespace)之NET详解
  • XxlJob热点文章定时计算
  • 组合模式Composite Pattern
  • 系统辨识的研究生水平读书报告期末作业参考
  • LangChain面试内容整理-知识点14:工具包(Toolkits)与用法
  • 嵌入式学习笔记 - SH79F6441 堆栈栈顶可以是片上内部RAM(00H-FFH)的任意地址怎么理解
  • Jmeter录制APP脚本
  • Kafka多副本机制
  • React 实现卡牌翻牌游戏
  • 小记:把react项目从web迁移到electron
  • 蒸馏微调DeepSeek-R1-Distill-Qwen-7B
  • Leetcode 刷题记录 16 —— 栈
  • [windows工具]OCR识文找图工具1.2版本使用教程及注意事项
  • [windows工具]OCR多区域识别导出excel工具1.2版本使用教程及注意事项
  • Unity3D仿星露谷物语开发63之NPC移动
  • XR-RokidAR-ADB环境搭建
  • OpenSpeedy:让游戏体验“飞”起来的秘密武器
  • 【Shader学习】完整光照效果
  • Unity基础-范围检测
  • 【Quest开发】初始项目环境配置
  • wordpress 新浪微博分享/湖南靠谱seo优化报价
  • 玉溪企业网站建设/seo优化软件大全
  • 班级建设网站设计方案/北京网优化seo公司
  • 哪些网站做的比较好的/独立站怎么搭建
  • 做新闻微网站有哪些/邯郸seo排名
  • 网站线框/百度推广入口登录