当前位置：首页 > news >正文

【多智能体强化学习】构建端到端的自主信息检索代理

news 2025/8/20 22:07:22

在这里插入图片描述

😊你好，我是小航，一个正在变秃、变强的文艺倾年。
🔔本专栏《人工智能》旨在记录最新的科研前沿，包括大模型、具身智能、智能体等相关领域，期待与你一同探索、学习、进步，一起卷起来叭！
🚩Paper：WebDancer: Towards Autonomous Information Seeking Agency
💻时间：202505
💭推荐指数：🌟🌟🌟🌟🌟

往期精彩专栏内容，欢迎订阅：

🔗【多智能体】20250611：基于嵌套进化算法的多代理工作流
🔗【多智能体】20250610：受木偶戏启发实现多智能体协作编排
🔗【多智能体】20250609：基于LLM自进化多学科团队医疗咨询多智能体框架
🔗【具身智能体】20250608：EvoAgent：针对长时程任务具有持续世界模型的自主进化智能体

创新性

系统化的框架：论文提出了一个系统的、端到端的框架，用于从头开始构建多步信息检索网络代理。该框架包括四个关键阶段：数据构建、轨迹采样、监督微调和强化学习。
高质量数据集合成：通过两种方法自动合成高质量的QA数据集：CRAWLQA和E2HQA，这些数据集能够激发多步推理和任务分解。
两阶段训练管道：采用拒绝采样微调（RFT）与后续的基于策略的强化学习（RL）相结合的两阶段训练方法，提高了数据效率和策略鲁棒性。
ReAct框架的应用：利用ReAct框架将推理与行动紧密结合，促进了交互环境中的有效学习和泛化。
多种工具的使用：在轨迹采样阶段，限制了动作空间为两种常用的网络信息检索工具：搜索查询和点击。
强化学习的动态采样机制：采用DAPO算法，其动态采样机制能够有效利用在SFT阶段未被充分利用的QA对，从而提高数据效率和策略鲁棒性。
实验验证：在GAIA和WebWalkerQA两个具有挑战性的信息检索基准上进行了广泛的实验，展示了WebDancer的有效性和鲁棒性。

补充这里可能会存在的疑点
WebDancer代理在数据集合成方面采取了哪些具体策略？这些策略如何提高代理的性能？

WebDancer代理在数据集合成方面采取了两种主要策略：

CRAWLQA（通过爬取网页构建深度查询）：首先，从官方和知识性网站收集根URL，并通过递归导航子页面来模拟人类浏览行为。然后，使用GPT-4o从收集的内容中合成问答对。为了确保问题的特异性和相关性，使用提示技术让LLM生成特定类型（如COUNT、MULTI-HOP、INTERSECTION）的问题。
E2HQA（通过增强易到难的问答对合成）：从SimpleQA风格的问答对开始，每个答案是一个简洁的事实寻求实体。然后，使用LLM构建基于该实体的查询，通过搜索引擎获取相关信息，再使用另一个LLM重构查询以替换原始实体。通过不断搜索和调整，将简单问题逐步转化为复杂的多步问题。

WebDancer代理在训练过程中采用了哪些关键步骤？这些步骤如何帮助代理更好地适应复杂
的信息检索任务？

WebDancer代理的训练过程包括以下关键步骤：

轨迹采样：使用两种提示策略生成高质量的轨迹，包括短链式思维（Short-CoT）和长链式思维（Long-CoT）。短链式思维使用强大的指令LLM生成，而长链式思维则利用推理模型（LRM）在每个步骤中进行自主决策。
监督微调（SFT）：在SFT阶段，使用监督学习对策略模型进行微调，以捕捉完整的代理轨迹。损失函数通过过滤掉外部反馈的标记，确保仅计算代理的自主决策步骤。SFT阶段为后续的RL阶段提供了强大的初始化。
强化学习（RL）：在RL阶段，采用解耦剪辑和动态采样策略优化（DAPO）算法。DAPO算法通过动态采样机制有效地利用在SFT阶段未被充分利用的问答对，从而提高数据效率和策略鲁棒性。奖励设计包括格式奖励和答案奖励，最终奖励函数结合了这两者。

研究背景

研究问题：这篇文章要解决的问题是如何构建自主的多步骤信息检索代理。具体来说，研究如何从数据中心和训练阶段的角度，构建端到端的自主信息检索代理。
研究难点：该问题的研究难点包括：获取高质量、细粒度的浏览数据以反映用户意图和丰富的交互上下文；构建支持长期推理和任务分解的可靠轨迹；设计可扩展且具有泛化能力的训练策略，使网络代理能够在分布外的网页环境中、复杂的交互模式和长期目标下表现出稳健的行为。
相关工作：该问题的研究相关工作包括：直接利用提示工程技术指导大型语言模型（LLMs）或大型推理模型（LRMs）执行复杂任务；通过监督微调（SFT）或强化学习（RL）将搜索或浏览器功能整合到网络代理中。现有方法的训练和评估数据集相对简单，无法捕捉现实世界的挑战。

研究方法

这篇论文提出了一个系统化的框架，用于从头开始构建端到端的多步骤信息检索代理。具体来说，

数据集合成：首先，构建高质量的深度信息检索问答对数据集。该过程包括两个方面：通过爬取网页构建深度查询（CRAWLQA），以及通过增强易到难的问答对合成（E2HQA）来激励从弱代理到强代理的转变。
轨迹采样：其次，使用两种提示策略生成高质量的轨迹：一种是使用强大的指令LLM进行短链式思维（Short-CoT），另一种是利用LRM进行长链式思维（Long-CoT）。这些轨迹包含短或长的思考内容。
监督微调：然后，采用拒绝采样微调（RFT）与后续的基于策略的强化学习（RL）相结合的两阶段方法。在SFT阶段，使用监督学习对策略模型进行微调，以捕捉完整的代理轨迹。损失函数如下：

其中， $I[x_{i}eq o]$ 过滤掉对应外部反馈的标记，确保损失仅计算代理的自主决策步骤。
强化学习：最后，在RL阶段，采用解耦剪辑和动态采样策略优化（DAPO）算法。DAPO算法通过动态采样机制有效地利用在SFT阶段未被充分利用的问答对，从而提高数据效率和策略鲁棒性。奖
励设计主要包括格式奖励和答案奖励，最终奖励函数如下： $R\left(\hat{y}{i}, y\right)=0.1* score{\text{format}}+0.9*score_{\text{answer}}$

实验设计

数据集：在GAIA和WebWalkerQA两个深度信息检索基准上进行评估。使用LLM作为评委，采用Pass@1指标进行评估。数据集包括GAIA的103个问题和WebWalkerQA的680个问题。
模型：使用Qwen-7B、Qwen-32B和QwQ-32B模型进行实验。Qwen-7B和Qwen-32B在Short-CoT数据集上训练，QwQ-32B在Long-CoT数据集上训练。
实现细节：使用ReAct框架实现代理，构建评委模型 $M_{j}$ ，并设计奖励提示。RL阶段采用Verl支持RL算法和回滚。回滚次数为16次，推理参数设置为温度=0.6，topp=0.95。

结果与分析

主要结果：在GAIA和WebWalkerQA基准上，没有代理能力（NoAgency）的框架表现较差，突显了主动信息检索和代理决策的必要性。闭源代理系统OpenAIDR通过端到端RL训练取得了最高分。开源框架中，基于强推理模型的代理（如QwQ-32B）一致优于其非代理对应物，证明了在代理构建中利用推理专用模型的有效性。
更具挑战性的基准：在BrowseComp（En.）和BrowseComp-zh（Zh.）两个更具挑战性的数据集上，WebDancer表现出一致的强劲性能，突显了其处理复杂推理和信息检索任务的鲁棒性和有效性。
详细分析：在GAIA数据集上，RL显著提高了Pass@3和Cons@3。高质量的轨迹数据对于代理的有效SFT至关重要。SFT对于冷启动至关重要，因为代理任务需要强大的多步骤多工具指令跟随能力。RL实现了更长的推理过程和更复杂的代理动作。

总体结论

这篇论文提出了一个系统化的框架，用于从头开始构建端到端的多步骤信息检索代理。通过引入可扩
展的问答数据合成方法和结合SFT和基于策略的RL的两阶段训练管道，WebDancer代理在GAIA和WebWalkerQA上取得了强劲的性能。这些发现突显了所提出的训练策略的重要性，并为代理训练的关键方面提供了宝贵的见解。未来的研究将致力于开发更先进的工具、扩展任务范围和优化数据利用策略，以进一步提高代理的能力。

📌 [ 笔者 ]   文艺倾年
📃 [ 更新 ]   2025.6.15
❌ [ 勘误 ]   /* 暂无 */
📜 [ 声明 ]   由于作者水平有限，本文有错误和不准确之处在所难免，本人也很想知道这些错误，恳望读者批评指正！

在这里插入图片描述

查看全文

http://www.dtcms.com/a/251083.html

【Docker基础】Docker核心概念：命名空间（Namespace）之NET详解

XxlJob热点文章定时计算

组合模式Composite Pattern

系统辨识的研究生水平读书报告期末作业参考

LangChain面试内容整理-知识点14：工具包（Toolkits）与用法

嵌入式学习笔记 - SH79F6441 堆栈栈顶可以是片上内部RAM(00H-FFH)的任意地址怎么理解

Jmeter录制APP脚本

Kafka多副本机制

React 实现卡牌翻牌游戏

小记:把react项目从web迁移到electron

蒸馏微调DeepSeek-R1-Distill-Qwen-7B

Leetcode 刷题记录 16 —— 栈

[windows工具]OCR识文找图工具1.2版本使用教程及注意事项

[windows工具]OCR多区域识别导出excel工具1.2版本使用教程及注意事项

Unity3D仿星露谷物语开发63之NPC移动

XR-RokidAR-ADB环境搭建

OpenSpeedy：让游戏体验“飞”起来的秘密武器

【Shader学习】完整光照效果

Unity基础-范围检测

【Quest开发】初始项目环境配置

用c语言实现简易c语言扫雷游戏

嵌入式硬件篇---常见电平标准

NJet Portal 应用门户管理介绍

实时操作系统(FreeRTOS、RT-Thread)RISC-V

基于SpringBoot和Leaflet的电影票房时序展示-以《哪吒2》为例

Django图片管理系统

在idea上打包DolphinScheduler

VTK 显示大量点云数据及交互（点云拾取、着色、测量等）功能

SAP实施服务专家——哲讯科技，赋能企业智慧升级

RTDETRv2 pytorch 官方版自己数据集训练遇到的问题解决

创新性

研究背景

研究方法

实验设计

结果与分析

总体结论

相关文章：