当前位置：首页 > news >正文

【AI论文】SynWorld：用于代理行为知识细化的虚拟场景合成

news 2025/10/11 21:20:15

摘要：在智能体与其环境之间的交互中，智能体通过规划和执行动作来扩展其能力。然而，基于LLM的代理在部署到新环境中或需要导航非常规动作空间时，面临着巨大的挑战。为了使智能体能够自主探索环境、优化工作流程并增强对动作的理解，我们提出了SynWorld，这是一个框架，允许智能体在动作空间内通过多步动作调用合成可能的场景，并执行蒙特卡洛树搜索（MCTS）探索，以有效地改进它们在当前环境中的动作知识。我们的实验表明，SynWorld是一种有效且通用的方法，可以在新环境中学习动作知识。代码可以在https://github.com/zjunlp/SynWorld上找到。Huggingface链接：Paper page，论文链接：2504.03561

研究背景和目的

研究背景

在智能体与其环境的交互中，大型语言模型（LLM）代理通过决策能力在动态环境中执行面向任务的动作，从而展示了增强的环境交互性和操作多样性。然而，随着任务复杂性的增加和新环境的出现，为代理手动标注环境描述和预定义动作文档常常与实际环境条件和动作使用不一致。此外，细化和对齐定义良好的环境描述和动作描述既耗时又费力。因此，为了在复杂的新环境中掌握不熟悉的动作和复杂的任务要求，细化代理的动作知识至关重要。

先前的研究已经探索了通过LLM合成的场景中的反馈来获取动作知识。与人类通过试错获取技能的方式类似，代理也可以通过利用模拟场景中的反馈来优化动作描述。然而，这些方法存在两个关键限制：一是它们利用的合成场景通常仅限于单个动作，这阻碍了代理学习适合这些任务的工作流程；二是线性迭代优化过程缺乏明确的改进方向，容易停滞并很快达到性能上限。

研究目的

为了解决上述限制，本研究提出了SynWorld框架，旨在帮助代理在新环境中学习不熟悉的动作。SynWorld通过以下方式实现其目标：

合成虚拟场景：涉及多个协调动作的虚拟场景合成，使代理能够在其中探索和学习。
动作知识细化：通过在虚拟场景中进行迭代蒙特卡洛树搜索（MCTS）优化，实现动作描述和工作流程模式之间的更彻底和双向细化，以确保与环境约束的更好对齐。

研究方法

场景合成

为了应对多步工具操作化的泛化挑战，本研究提出了一种通过工具条件任务生成来合成场景的框架。场景合成被形式化为：

S(t)={(B,G)∣∀t⊆T}

其中，t 是从完整工具集 T 中选择的一组工具，用于设计场景。每个场景包含两部分：

背景（Background, B）：指定初始条件和约束的上下文场景。
目标（Goal, G）：需要工具介入解决的终端目标。

通过这种方法，不同的工具组合会产生非平凡的场景变化。为了确保数据多样性，如果新生成的场景与已合成场景的相似性超过阈值 ϵ，则将其排除。

动作知识探索

初始化：根节点用预定义的动作知识初始化，作为任务解决逻辑的基础。在MCTS过程中，使用UCB算法选择节点，以有效地平衡探索和利用。
扩展：在选择节点 Ni 作为候选后，启动一个优化过程，该过程回溯到 Ni 以获取先前的优化经验 E。每个优化经验 E 包含三个部分：优化前的分数 Sbefore、优化后的分数 Safter 和所采取的优化动作 M。
反馈收集：配备优化后的动作知识后，代理 π 可以在环境中执行任务。对于每个任务 T，代理与环境交互以接收反馈，包括轨迹 Trai 和最终奖励分数 Si。
细化：基于优化经验和探索轨迹 Tra，基于LLM的代理 π 将分析现有动作知识与环境之间的差异，并对其进行优化以生成更新版本的动作知识。

研究结果

实验设置

为了验证所提方法在动作知识优化方面的效率，本研究选择了两个数据集：ToolBench和HotpotQA，它们各自为全面评估提供了独特的挑战。此外，还选择了几个强大的方法作为基线，包括ReAct、Self-Refine、EasyTool和DRAFT。

主要结果

ToolBench任务：该任务要求结合使用多个工具。如表1所示，本研究的方法在PASS分数上达到了59.33，WIN分数上达到了73.00，与其他迭代优化方法相比有显著改进，证明了本方法在工具组合和任务规划优化方面的优势。
HotpotQA任务：该任务要求使用单个工具进行多步调用。在只使用单个工具但需要连续多跳调用的场景中，本研究的方法也取得了最先进的结果，表明不仅工具描述与环境对齐，还成功生成了可泛化的规划工作流程。

进一步分析

数据规模的影响：如图3所示，随着合成场景数量的增加，代理的性能呈上升趋势。这表明在合成场景中学习动作知识具有可扩展性。
虚拟与现实环境的一致性：如图4所示，在虚拟和现实环境中，随着迭代次数的增加，ToolBench的通过率均呈现一致的上升趋势，表明在虚拟环境中获得的动作知识在现实世界中也是有效且可泛化的。

研究局限

验证范围：本研究最初在两个基准测试上进行了实证验证：ToolBench（涉及多工具调用场景）和HotpotQA（需要多步动作执行）。虽然这证明了本方法的有效性，但在不同现实世界应用中的广泛验证仍然很有价值。
计算开销：由于标记密集的虚拟场景合成过程，本方法目前存在非平凡的计算开销。探索阶段的穷举所有可能场景进一步加剧了这一问题。
知识表示：当前的动作知识表示采用纯文本格式。这提供了探索替代结构化表示的机会，如动作参数的表格组织或包含过程知识的可执行代码片段，这可能增强推理能力。