Tree Search for Web Agents
挑战背景
-
智能体网页浏览难题:基于大语言模型甚至视觉 - 语言模型的智能体,在通过网页浏览实现特定目标时存在困难。虽然部分方法尝试从训练底层模型入手解决,但智能体架构对解决该问题也至关重要。此背景点明了研究的出发点,即当前智能体在网页浏览任务上存在不足,需要新的解决方案。
新方法提出
-
树搜索方法介绍:卡内基梅隆大学的研究团队提出了针对语言模型智能体的树搜索方法。该方法将网页交互转化为树搜索过程,使智能体能够探索不同的行动链,避免重复犯错。这一创新方法为解决智能体网页浏览问题提供了新的思路和途径。
方法核心思路
-
网页任务特点:以查找商品价格为例,说明许多网页任务需要一系列连贯的中间操作。在执行过程中,智能体一旦犯错(如点击错误链接),就可能偏离目标。
-
关键能力需求:智能体若要完成任务,需具备评估可能行动以及记住网页先前状态的能力,这样才能纠正错误,选择正确的行动链达成目标。这清晰地阐述了树搜索方法的设计依据,即针对网页任务的复杂性和易错性,赋予智能体相应的能力以提高任务完成成功率。
树搜索方法工作流程
-
任务与网页标注:研究人员利用模拟在线零售店、类Reddit论坛和分类广告目录的网站模型,让基于GPT - 4o的智能体尝试200项不同任务。同时,使用“标记集”方法对每个网页进行标注,以便识别可交互的视觉元素。这一步骤为智能体后续的操作提供了基础和前提,明确了网页中可操作的元素。
-
操作预测与执行:智能体从网页和具体指令出发,将网页图片传递给大语言模型,模型预测出五个可能推动任务进展的操作。智能体执行这些操作,每次操作后,大语言模型以上一状态为背景评估当前网页状态,并给出0到1之间的评估值。智能体记录每个状态及其评估值。此过程详细描述了智能体如何在大语言模型的协助下进行操作预测、执行和状态评估,逐步推进任务。
-
状态选择与搜索循环:执行完五个操作后,智能体选取评估值最高的状态,基于该状态再次让大语言模型预测五个新操作,重复上述过程。若新状态值低于其他状态,智能体回溯到较高值的先前状态重新获取操作。当任务完成或探索了20个可能状态时,搜索结束。这一循环机制体现了树搜索方法的核心,通过不断评估和选择最优状态,智能体逐步找到完成任务的最佳行动链。
实验对比结果
-
实验设置:对比两个智能体,一个采用树搜索方法,另一个从相同起点出发,接收相同指令,但每个状态只执行一个操作且不回溯。
-
任务完成情况:两个智能体共同尝试200项任务(包括购物、论坛、分类广告相关任务)。结果显示,采用树搜索方法的智能体完成任务的成功率为26.4%,而另一智能体仅为18.9%。实验结果直观地表明了树搜索方法在提高智能体网页任务完成成功率方面的有效性。
方法的重要意义
-
新兴设计模式:搜索与反思、规划、工具使用及多智能体协作一同,成为智能体设计的新兴模式。强调了搜索方法在智能体设计领域的重要地位,表明它是智能体发展的一个重要方向。
-
任务优化作用:树搜索方法通过让智能体探索众多分支行动路径,帮助其确定完成任务的最有效行动组合,从而提升智能体完成任务的能力和效率。这进一步阐述了树搜索方法对智能体的关键作用,即通过优化行动选择提高任务完成效果。
对未来的展望
-
设计模式发展:智能体设计模式正快速发展,体现了该领域的活跃性和创新性。
-
潜在应用拓展:结合计算机操作,树搜索方法有望使智能体能够执行更多类型的桌面任务,为智能体的应用场景拓展提供了可能性,展示了该方法在未来的潜在价值。