当前位置: 首页 > news >正文

探索Agent工具调用时的高熵时刻

  • AGENTIC REINFORCED POLICY OPTIMIZATION

速通这篇论文:

1.Agent 工具调用后的高熵时刻

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

几个发现:

  1. 工具调用完拼接工具结果后,继续生成的10-50个token的熵急剧增加
  2. 在推理的早期熵也会增加,但是仍低于工具调用后的熵

2. 论文动机

  1. PPO、GRPO等方法从Trajectory的粒度优化Agent工具调用行为,忽略了关键时刻——工具调用的时刻,存在工具调用次数多、低效等问题。

  2. 工具调用后不确定性增加

    1. 工具调用完拼接工具结果后,继续生成的10-50个token的熵急剧增加
    2. 在推理的早期熵也会增加,但是仍低于工具调用后的熵
  3. 工具调用后熵增恰是模型推理的关键分叉点。此时模型可以探索多样化的工具路径(如是否继续调用工具、调用哪种工具),找到最优策略。轨迹级采样未针对高熵步骤分配额外探索资源,导致模型无法有效挖掘这一阶段的潜在有效行为。

3. 论文方法

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3.1 ENTROPY-BASED ADAPTIVE ROLLOUT

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
基于熵的自适应Rollout,简单来说,就是在rollout的过程中,并不是一次性rollout到结束,而是在工具调用节点进行判断,是否进行分支。

  1. 先初始化一些rollout直至第一次工具调用
  2. 计算每个rollout前k个token的熵
  3. 继续生成,在每次工具调用后继续生成k个token,并计算熵,根据当前熵判断是否产生分支还是继续生成
  4. 最终得到多个rollout,其中一些rollout会存在共享的节点

3.2 ADVANTAGE ATTRIBUTION ESTIMATION

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
优势归因估计,上一步产生了大量具有“共同前缀+不同分支”结构的rollouts。如何将奖励分配给rollout上的不同节点以区分它们的重要性呢?论文提出了两种方法:

  1. Hard Advantage Estimation
    共享、独占 token的优势独立计算
  2. Soft Advantage Estimation。通过重要性采样区分共享和独占tokens
    外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

4. 实验

一般的实验对比自然不用说了,肯定是有提升的,如下图所示。
有一个有趣的点,可以看到Webthinker-14B在HLE这个测试集上表现的尤其好啊,可以体验一下~
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
在效果提升的同时,也可以看到模型工具使用效率相比GRPO下降了一半,这点还是不错了,提升了Agent完成任务的效率。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

http://www.dtcms.com/a/541379.html

相关文章:

  • c 转网站开发电脑培训网上培训班
  • 2022/07 JLPT听力原文 问题四
  • 互联网网站运营网站建设博客作业
  • 破解多数据库并存难题!电科金仓异构多活架构铸就安全底座
  • 网站在线解压小程序入口qq浏览器
  • 中国工程项目网站网站模版带后台
  • JavaWeb后端-MySQL
  • sherpa-onnx实现ASR(语音转文字)和 TTS(文字转语音)
  • 怎么进入国外网站一些有趣的网站
  • 树莓派 ADS1263 各种库程序
  • 基于NodeJs实现一个MCP客户端(会话模式和无会话模式)
  • 小迪安全v2023学习笔记(一百三十九讲)—— Linux系统权限提升篇Vulnhub辅助项目SUID权限SUDO指令版本漏洞
  • 《电子工程师基础篇:全面解析电容分类、核心MLCC与选型参数》
  • opencv学习笔记7:对mnist数据集分类
  • 房地产公司网站建设报价方案涂料网站模板
  • 深圳手机网站网站恶意点击
  • 网站优化搜索东莞企业网络推广运营技巧
  • 网站关键词怎么设置莲塘网站建设
  • 跨院区数据不通、停机风险高?浙人医靠电科金仓多活架构破信创难题
  • 免费网站建设优化做一个付费网站多少钱
  • Redis - hash list (常用命令/内部编码/应用场景)
  • 广水网站定制淘宝可以在哪些网站上面打做推广
  • elasticSearch之API:Ingest Pipeline Painless Script
  • elasticsearch安装分词器和操作
  • ubuntu系统安装elasticsearch
  • 网站seo分析常用的工具是华建河北住房和城乡建设厅网站
  • 做网站客户尾款老不给怎么办h5登录页面
  • 黑马JAVA+AI基础11-面向对象编程-常用API-String-ArrayList
  • 平东网站建设引流量的网站
  • 解决Docker容器中出现的错误“Pangolin X11: Failed to open X display”