当前位置: 首页 > news >正文

WebDancer论文阅读

论文提出了一个端到端的agentic信息检索智能体的范式,能够适配大部分开源模型。

一、总览

包括四个阶段:(1)浏览数据构建,(2)轨迹采样。(3)用于有效冷启动的监督微调,以及(4)用于增强泛化的强化学习。

二、数据构建

1.QA对构建

构建了crawlQA 和 e2hQA。
crawlQA是从网页爬取的,从根站点出发,递归访问子页面,最终使用GPT-4o合成问答对。
e2hQA从一个简单问题的一个实体出发,逐步将这个实体转换为一个子问题,通过这样逐步深入,控制搜索步骤。
在这里插入图片描述

2.智能体轨迹拒绝采样

基于react范式。这里只有三个动作(搜索、浏览,回答)
在这里插入图片描述
分别使用gpt-4o收集短cot,qwq-plus收集长cot。
使用三阶段的轨迹过滤框架进行拒绝采样
在这里插入图片描述

三、后训练

在这里插入图片描述

1.agent监督微调

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.agent的rl

采用DAPO算法
在这里插入图片描述

奖励函数设计方面,设计了格式和结果奖励,都是0/1。因为sft在格式上基本OK,所以占比是1:9。

四、结论和分析

高质量的轨迹数据对于智能体的有效 SFT 至关重要;
针对冷启动的 SFT 至关重要,因为智能体任务要求具备强大的多步多工具指令跟随能力。
强推理模型所使用的思考模式知识难以转移到小型指令
模型上。
强化学习(RL)能够实现更长的推理过程,并支持更复杂的 Agentic 动作。
Web 智能体在一个动态、不断演化的环境中执行任务,这种环境本质上难以稳定。

http://www.dtcms.com/a/389007.html

相关文章:

  • Node.js、npm 和 npx:前端开发的三剑客
  • Node.js 创建 UDP 服务
  • 【NodeJS 二维码】node.js 怎样读取二维码信息?
  • IRN论文阅读笔记
  • pacote:Node.js 生态中的包获取工具
  • 使用 Ansible 管理 Docker 容器:开关机、定时开关机及 VNC 控制
  • 【Spring AI】实现一个基于 Streamable HTTP 的 MCP Server
  • 云手机:概念、历史、内容与发展战略
  • linux服务器上安装oss对象存储(命令行工具使用oss)
  • 强化学习1.1 使用Gymnasium库
  • 日语学习-日语知识点小记-进阶-JLPT-N1阶段蓝宝书,共120语法(11):101-110语法 +(考え方15)
  • 运维分享:神卓 N600 如何实现 NAS 安全稳定访问
  • 系统集成项目管理工程师:第十四章 收尾过程组
  • 云手机通道具体是指什么?
  • C++ :实现多线程编程
  • 嵌入式科普(40)浅谈“功能安全“概念,深悟“功能安全“本质
  • 分布式系统理论-CAP和BASE
  • SaaS 安全的原则、挑战及其最佳实践指南
  • Flink on Native K8S源码解析
  • VMwarea安装
  • HarmonyOS之Swiper全解析
  • React18中性能优化方式
  • X133核心板--智能教育平板的芯动力​
  • 下载flink和flink cdc jar
  • 华为三层交换技术
  • 潮起之江:算力创新与赋能开启AI产业新征程
  • 华为链路聚合技术基础
  • 百度智能云车牌识别API官方配置指南
  • Git 拉Github的仓库却要求登录GitLab
  • 【Kafka】Kafka如何开启sasl认证?