当前位置：首页 > news >正文

WebDancer论文阅读

news 2025/9/19 5:49:10

论文提出了一个端到端的agentic信息检索智能体的范式，能够适配大部分开源模型。

一、总览

包括四个阶段：（1）浏览数据构建，（2）轨迹采样。（3）用于有效冷启动的监督微调，以及（4）用于增强泛化的强化学习。

二、数据构建

1.QA对构建

构建了crawlQA 和 e2hQA。
crawlQA是从网页爬取的，从根站点出发，递归访问子页面，最终使用GPT-4o合成问答对。
e2hQA从一个简单问题的一个实体出发，逐步将这个实体转换为一个子问题，通过这样逐步深入，控制搜索步骤。
在这里插入图片描述

2.智能体轨迹拒绝采样

基于react范式。这里只有三个动作（搜索、浏览，回答）
在这里插入图片描述
分别使用gpt-4o收集短cot，qwq-plus收集长cot。
使用三阶段的轨迹过滤框架进行拒绝采样

三、后训练

在这里插入图片描述

1.agent监督微调

在这里插入图片描述

2.agent的rl

采用DAPO算法
在这里插入图片描述

奖励函数设计方面，设计了格式和结果奖励，都是0/1。因为sft在格式上基本OK，所以占比是1:9。

四、结论和分析

高质量的轨迹数据对于智能体的有效 SFT 至关重要；
针对冷启动的 SFT 至关重要，因为智能体任务要求具备强大的多步多工具指令跟随能力。
强推理模型所使用的思考模式知识难以转移到小型指令
模型上。
强化学习（RL）能够实现更长的推理过程，并支持更复杂的 Agentic 动作。
Web 智能体在一个动态、不断演化的环境中执行任务，这种环境本质上难以稳定。

查看全文

http://www.dtcms.com/a/389007.html