当前位置：首页 > news >正文

清华大学大模型智能体自我认知与决策流程！自知、反思、规划：城市环境目标导航中的大模型智能体新范式

news 2025/10/14 8:15:34

作者：Qingbin Zeng $^{1}$ , Qinglong Yang $^{1}$ , Shunan Dong $^{1}$ , Heming Du $^{2}$ , Liang Zheng $^{2}$ , Fengli Xu $^{1}$ , Yong Li $^{1}$
单位： $^{1}$ 清华大学电子工程系， $^{2}$ 澳洲国立大学计算学院
论文标题：Perceive, Reflect, and Plan: Designing LLM Agent for Goal-Directed City Navigation without Instructions
论文链接：https://arxiv.org/pdf/2408.04168
代码链接：https://anonymous.4open.science/r/PReP-13B5

论文研究了在没有导航指令和地图的情况下，AI智能体如何在城市环境中进行目标导向的导航。

具体来说，智能体通过观察周围场景（包括识别地标和道路网络连接）来决策如何导航到目标地点。

该问题的研究难点包括：

城市环境定义：
- 城市环境被描述为一个无向图 $\langle V, E\rangle$ ，其中每个节点 $v_i \in V$ 表示道路上的一个位置，附加的视觉信息（街景图像）为 $S_i = \{s_i^1, s_i^2, \ldots, s_i^k\}$ 。
- 边 $e_{ij} \in E$ 表示节点 $v_i$ 和 $v_j$ 之间的移动路径。
- 地标 $\{l m_1, l m_2, \ldots, l m_n\}$ 被定义为图中独立的顶点。
城市导航任务定义：
- 任务的目标是从起始节点 $v_s$ 到目标节点 $v_g$ 找到一条路径。具体来说，给定一个导航任务 $\langle v_s, v_g, D\rangle$ ，目标是找到一条最短路径到达目标。
- 描述 $D = \{R_1, R_2\}$ 用于确定目标，其中 $R_1 = \{R(v_g, lm) | lm \in L M_s\}$ 是目标与可见地标之间的相对位置关系， $R_2 = \{R(lm_i, lm_j) | lm_i, lm_j \in LM\}$ 是环境中所有地标之间的相对位置关系。
智能体行为定义：
- 在时间 $t$ 和节点 $v_t$ 处，智能体根据街景图像和道路连接做出决策，识别街景中的地标并推断目标的方向和距离 $R(v_t, v_g)$ ，然后导航到目标。

PReP工作流由三个主要部分组成：视觉感知、反思与记忆、以及规划。

视觉感知能力：
- 智能体通过视觉感知识别街景图像中的地标，并预测目标的方向和距离。
- 使用微调的LLaVA-7B模型进行感知，因为LLaVA是一个多模态模型，能够同时处理文本和图像。
- 智能体通过检测地标并估计其相对于智能体的位置 $R_{lm} = \{R(lm_i, v_t) | lm_i \in LM\}$ 来获取地标的位置信息。
目标方向的推断：
- 智能体结合地标位置和任务描述来推断目标的方向。
- 使用余弦定理等方法来计算目标相对于智能体的方向和距离 $R_g^t = R(v_g, v_t)$ 。

反思机制：
- 反思部分通过总结过去的经验和反思视觉感知结果来帮助智能体形成认知地图。
- 包括长期记忆和工作记忆两个主要组件。
长期记忆：
- 情景记忆：存储导航数据和历史轨迹，格式化为自然语言句子。
- 语义记忆：使用LLMs从情景记忆中总结和学习，形成高层次的认知功能，帮助智能体构建内在的导航地图表示。
工作记忆：
- 接收感知结果并从长期记忆中检索相关经验。
- 设计了预期-评估机制，以解决在街景中无法检测到地标的问题。
- 工作记忆使用历史感知结果 $R_{g}^{t'}$ 和移动方向来预期潜在的目标方向 $R$ 。

规划模块：
- 规划模块结合反思后的目标推断、检索的记忆和当前的路径连接来生成导航计划。
- 将完整的路径分解为多个子目标，确保在长距离导航中的一致性和合理性。
短期决策：
- 短期决策器将计划转化为具体的行动，基于当前的路径连接。
- 行动 $\alpha_t = LLM_{action}(P_t, E_t)$ 表示从节点 $v_t$ 移动到节点 $v_{t+1}$ 。

实验环境：
- 实验在模拟的城市导航任务中进行，评估所提出的智能体工作流的有效性。
- 使用成功率和路径长度加权成功率（SPL）来衡量系统的效果和效率。
数据集：
- 实验在四个城市的四个测试集上进行，每个测试集包含100个不同的导航任务，每个任务有不同的起始点和目标点。
- 每个起始点和目标点的选择是随机的，有时会在没有可见地标的位置，增加了任务的挑战性。
- 从起始节点到目标节点的最小步数遵循正态分布，平均值为30步，标准差为10步，每一步对应地图上的50米。
迭代限制：
- 设置迭代次数为最小步数的2.5倍。如果智能体超过这个限制仍未到达目标，则视为任务失败。

与现有方法的比较：
- 将PReP与现有的基于语言的方法进行比较，包括Code as Policies (CaP)、ProgPrompt、Inner Monologue (IM)、Chain of Thought (CoT)、DEPS和React。
- 还实现了两种非LLM基线方法：随机方法和强化学习（RL）方法。
- 所有语言方法使用GPT-4-turbo作为基础模型，所有LLM的超参数相同，以确保公平比较。

实验结果：
- PReP在所有城市中均表现出最佳导航性能。
- 例如，在北京的测试集上，PReP的成功率为66.68%，SPL为48.25%，显著优于其他方法，如DEPS（成功率45%，SPL 33.07%）和CaP（成功率47%，SPL 35.86%）。
消融研究：
- 进行消融研究以验证反思和规划方法的有效性。
- 结果显示，完整的PReP工作流表现最佳。例如，在北京的测试集上，PReP的成功率比仅使用感知的方法高25%，比无反思的方法高19%，比无规划的方法高10%。