当前位置：首页 > news >正文

探索Agent工具调用时的高熵时刻

news 2025/10/29 10:34:42

AGENTIC REINFORCED POLICY OPTIMIZATION

速通这篇论文：

1.Agent 工具调用后的高熵时刻

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

几个发现：

工具调用完拼接工具结果后，继续生成的10-50个token的熵急剧增加
在推理的早期熵也会增加，但是仍低于工具调用后的熵

2. 论文动机

PPO、GRPO等方法从Trajectory的粒度优化Agent工具调用行为，忽略了关键时刻——工具调用的时刻，存在工具调用次数多、低效等问题。
工具调用后不确定性增加
1. 工具调用完拼接工具结果后，继续生成的10-50个token的熵急剧增加
2. 在推理的早期熵也会增加，但是仍低于工具调用后的熵
工具调用后熵增恰是模型推理的关键分叉点。此时模型可以探索多样化的工具路径（如是否继续调用工具、调用哪种工具），找到最优策略。轨迹级采样未针对高熵步骤分配额外探索资源，导致模型无法有效挖掘这一阶段的潜在有效行为。

3. 论文方法

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3.1 ENTROPY-BASED ADAPTIVE ROLLOUT

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
基于熵的自适应Rollout，简单来说，就是在rollout的过程中，并不是一次性rollout到结束，而是在工具调用节点进行判断，是否进行分支。

先初始化一些rollout直至第一次工具调用
计算每个rollout前k个token的熵
继续生成，在每次工具调用后继续生成k个token，并计算熵，根据当前熵判断是否产生分支还是继续生成
最终得到多个rollout，其中一些rollout会存在共享的节点

3.2 ADVANTAGE ATTRIBUTION ESTIMATION

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
优势归因估计，上一步产生了大量具有“共同前缀+不同分支”结构的rollouts。如何将奖励分配给rollout上的不同节点以区分它们的重要性呢？论文提出了两种方法：

Hard Advantage Estimation
共享、独占 token的优势独立计算
Soft Advantage Estimation。通过重要性采样区分共享和独占tokens

4. 实验

一般的实验对比自然不用说了，肯定是有提升的，如下图所示。
有一个有趣的点，可以看到Webthinker-14B在HLE这个测试集上表现的尤其好啊，可以体验一下~
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
在效果提升的同时，也可以看到模型工具使用效率相比GRPO下降了一半，这点还是不错了，提升了Agent完成任务的效率。