当前位置：首页 > news >正文

【VLNs篇】06：SmartWay—面向零样本视觉语言导航的增强路径点预测与回溯

news 2025/9/12 4:09:05

方面	具体创新点	解决的问题/带来的优势
路径点预测器 (Waypoint Predictor)	1. 视觉编码器升级: 使用 DINOv2 替换 ResNet-50。 2. 特征融合: 采用掩码交叉注意力（Masked Cross-Attention）融合RGB和深度特征。 3. 损失函数: 引入占用感知损失（Occupancy-aware Loss）。	1. 捕捉更丰富的视觉表征，提高泛化能力。 2. 更好地利用RGB和深度信息的互补性，增强空间感知。 3. 使预测的路径点能主动避开障碍物，提高导航安全性与成功率。
导航器 (Navigator)	1. MLLM作为导航核心: 在连续环境中首次使用MLLM（多模态大语言模型）进行零样本导航。 2. 历史感知提示系统: 设计了集成的单专家提示系统，包含历史轨迹、视觉观测和规划。	1. 实现了强大的零样本泛化能力，无需针对特定环境进行微调。 2. 增强了模型的长期记忆和上下文推理能力，能处理更复杂的指令。
决策与鲁棒性 (Decision & Robustness)	1. 自适应路径规划与回溯: 引入了回溯机制（Backtracking），允许智能体在发现错误时返回上一步。 2. 多尺度动作空间: 提供“轻微转”和“急转”等更精细的动作选项。	1. 显著提高鲁棒性，能够从导航错误（如走错路、进入死胡同）中恢复，减轻了错误累积问题。 2. 提升了导航的精细度和对路径的对齐能力。
综合框架 (Overall Framework)	SmartWay 框架: 将增强的路径点预测器与带回溯功能的MLLM导航器相结合。	创建了一个端到端的零样本VLN-CE解决方案，在模拟和真实世界中均表现出SOTA性能，有效弥合了与全监督方法之间的差距。

具体实现流程总结

该论文提出的SmartWay框架包含两个核心部分：路径点预测器和MLLM导航器，其工作流程如下：

输入 (Input):
1. 自然语言指令: 一个描述导航任务的句子（例如：“离开卧室，穿过客厅，然后在床前停下。”）。
2. 当前环境观测: 机器人当前位置的全景RGB-D图像（由12个不同角度的RGB和深度图组成）。
处理流程 (Processing Flow):
1. 路径点预测 (Waypoint Prediction):
  - 特征提取:
    - RGB图像输入到 DINOv2 编码器，提取丰富的视觉特征。
    - 深度图像输入到 DDPPO/ResNet-50 编码器，提取空间结构特征。
  - 特征融合: 使用掩码交叉注意力机制，将RGB特征（作为query）与深度特征（作为key/value）融合，生成对空间感知更强的rgbd特征。
  - 路径点生成: 融合后的特征经过一个Transformer和分类器，输出一个热力图 (Heatmap)，表示不同方向和距离上成为可导航路径点的概率。
  - 训练优化: 模型训练时使用两个损失函数：一个是预测热力图与真实路径点之间的均方误差损失 (MSE Loss)；另一个是基于深度数据生成的占用掩码计算的占用感知损失 (Occupancy-aware Loss)，用于惩罚预测到障碍物区域的路径点。
  - 候选动作生成: 从热力图中提取TOP-K个得分最高的路径点作为候选动作。
2. MLLM导航与决策 (MLLM Navigation & Decision):
  - 提示构建 (Prompt Construction): 将所有信息整合成一个结构化的提示，喂给MLLM（如GPT-4）。这个提示包括：
    - 任务指令 (Instruction): 原始的自然语言指令。
    - 历史记录 (History): 之前走过的步骤、看到的场景描述（由RAM模型生成）。
    - 先前规划 (Previous Planning): MLLM在上一步生成的导航计划。
    - 动作选项 (Action Options): 当前步骤的候选动作列表，包括路径点预测器生成的移动选项（如“向左转到位置X”）、停止选项，以及关键的回溯选项（“返回上一个位置”）。
  - 推理与决策: MLLM分析整个提示，进行推理：
    - 生成思考 (Thought): 解释当前状态，判断是否与指令和计划一致。
    - 更新规划 (New Planning): 根据当前情况更新或调整后续的多步导航计划。
    - 选择动作 (Action): 从“动作选项”中选择一个最合适的动作（例如"Action": "G"）。
  - 回溯逻辑 (Backtracking Logic): 如果MLLM通过“思考”判断自己迷路了或当前路径无效，它会主动选择回溯动作，让机器人返回上一个已知正确的状态，然后重新规划路径。
输出 (Output):
- 一个确定的动作指令: 例如，“向右急转到位置41”或“返回上一个位置”。
- 这个指令被发送给机器人底层控制器执行。执行完毕后，机器人捕捉新的全景图像，开始下一轮循环，直到MLLM决定执行“停止”动作。

文章目录

- - - I. 引言
    - II. 相关工作
    - III. 预备知识
    - IV. 方法
    - V. 实验
    - VI. 结论与未来工作

摘要 - 在连续环境中的视觉语言导航（Vision-and-Language Navigation, VLN）要求智能体在无约束的3D空间中导航时，能够理解自然语言指令。现有的VLN-CE（连续环境中的VLN）框架依赖于一个两阶段方法：一个路径点预测器（waypoint predictor）生成路径点，一个导航器（navigator）执行移动。然而，当前的路径点预测器在空间感知方面存在不足，而导航器缺乏历史推理和回溯能力，这限制了其适应性。我们提出了一个零样本VLN-CE框架，该框架集成了一个增强的路径点预测器和一个基于多模态大语言模型（MLLM）的导航器。我们的预测器采用更强的视觉编码器、掩码交叉注意力融合机制以及一个占用感知损失函数，以获得更高质量的路径点。导航器则融合了历史感知推理和带回溯功能的自适应路径规划，提升了鲁棒性。在R2R-CE和MP3D基准测试上的实验表明，我们的方法在零样本设置下达到了业界顶尖（SOTA）性能，并展示了与全监督方法相媲美的结果。在Turtlebot 4机器人上的真实世界验证进一步凸显了其适应性。

在这里插入图片描述

图 1. 我们提出的路径点预测器和回溯机制的作用。在无回溯场景（左）中，智能体因不可逆的错误而迷路。相比之下，启用回溯的智能体（右）能够检测到导航失败，回溯其步骤，并找到备选路径，从而增强了在复杂环境中的鲁棒性。此外，由于占用损失函数的作用，我们增强的路径点预测器在开放空间中明显更有效和可靠。

I. 引言

视觉语言导航（VLN）是一个复杂的跨学科挑战，它要求通过顺序决策来解释自然语言指令并在未知环境中导航[1], [2], [3], [4], [5]。虽然大多数VLN研究在离散环境中进行，但近期的研究已转向更真实的连续环境设置，通常称为连续环境中的视觉语言导航（VLN-CE），以更好地捕捉现实世界导航的复杂性。与离散设置不同，VLN-CE取消了预定义导航图的约束，要求智能体执行底层动作并应对动态不确定性[6], [7], [8]。这种转变要求更灵活的导航策略，因为智能体必须在不依赖固定节点或边的情况下推断可通行的路径。为了应对这些挑战，主流的VLN-CE方法采用两阶段框架：（1）路径点预测器识别可导航位置，随后由（2）导航器根据这些路径点做出动作决策并执行移动。

路径点预测器直接从RGB-D观测中生成路径点，实现了灵活和自适应的导航。与依赖预定义导航图的离散VLN方法不同，这种方法允许智能体做出精细的移动决策，而不受固定节点或边的限制。在每一步，智能体捕捉全景RGB和深度图像，使用独立的视觉主干网络对其进行编码，并将提取的特征融合成一个统一的表示。然后，一个轻量级的Transformer模型对空间关系进行建模以预测路径点，从而促进对新环境的高效探索。通过动态选择路径点，路径点预测器增强了导航效率和对未知环境的适应性，使其成为现实世界部署的关键组成部分。

尽管其重要性如此，现有的路径点预测器框架仍有几个局限性。最广泛使用的模型，由Hong等人[4]提出，采用在ImageNet[10]上预训练的ResNet-50[9]编码器来处理RGB图像，并使用一个简单的线性层进行RGB-D融合。然而，最近的研究[8]表明，RGB信息对路径点预测中的特征表达能力贡献甚微，限制了模型的泛化能力。此外，路径点预测器缺乏明确的环境约束，使其容易预测到导致障碍物或次优路径的路径点。

为了解决这些局限性，我们对路径点预测器引入了三个关键改进：（1）一个更强的视觉编码器，用DINOv2[11]替换ResNet-50，以捕捉更丰富的场景表示；（2）一个掩码交叉注意力融合机制，增强RGB-D特征交互和空间感知；以及（3）一个占用感知损失函数，确保预测的路径点与可导航区域对齐。这些增强提高了路径点预测器的鲁棒性和空间推理能力，从而在复杂、真实的现实世界环境中实现更有效的导航。

尽管路径点预测取得了进展，但在现实世界中的部署仍然因数据稀缺和泛化能力有限而充满挑战[5]。大语言模型（LLM）通过利用大规模网络数据提供了一个潜在的解决方案，可能减少对领域特定标注的依赖并提高泛化能力。然而，现有的基于LLM的导航方法在连续运动控制和障碍物规避方面存在困难，因为它们主要是为离散环境设置设计的，如NavGPT、MapGPT [12], [13], [14]。最近的一些方法探索了在VLN-CE中由LLM驱动的导航，特别是在智能体无需环境特定微调即可泛化的零样本设置中[15], [16]。Open-Nav [16]是应对这些挑战的最新尝试，它利用开源LLM进行零样本VLN-CE。然而，这些LLM完全依赖文本输入，缺乏直接解释视觉信息的能力。在这类系统中，视觉感知是通过视觉语言模型将RGB图像转换为文本描述作为中间表示来实现的，导致对视觉环境的理解是间接和不完整的。此外，先前在基于学习的VLN中的工作已经强调了有效利用导航历史和集成回溯机制的关键重要性[6], [17], [18]。对于历史观测，依赖文本转换会妨碍对丰富上下文信息的充分利用，并且无法有效回溯。

因此，为了克服这些局限性，我们提出了一个基于MLLM的VLN智能体，它（1）通过一个历史感知单专家提示系统（History-aware Single-expert Prompt System）集成了历史轨迹推理，并（2）通过一个带回溯能力的自适应路径规划（Adaptive Path Planning）模块提高了适应性，确保了在零样本设置下的鲁棒导航。

在我们的实验中，我们在模拟和真实世界环境中评估了我们的方法。在模拟中，我们在Habitat模拟器内的R2R-CE val-unseen集上进行测试。我们的零样本导航器实现了29%的成功率（SR）和22.46%的SPL，超越了所有其他零样本方法。在真实世界实验中，我们将我们的方法部署在一台配备OAK-D Pro摄像头的Turtlebot 4上，在25个不同指令下执行导航任务。我们的方法超越了基于学习的基线，展示了改进的导航效率和鲁棒性。此外，我们提出的回溯机制进一步提高了成功率并减少了导航错误，证实了其在缓解累积错误方面的有效性。

在这项工作中，我们的主要贡献如下：

我们提出了一个增强的路径点预测器模块，通过利用一个鲁棒的视觉编码器、一个掩码交叉注意力融合策略以及一个占用感知损失函数来提高准确性，这些都是为连续导航设置量身定制的。
我们首次在零样本范式下，探索了在连续环境中使用多模态大语言模型（MLLM）进行VLN，并引入了一个历史感知单专家提示系统，以有效地整合过去的轨迹信息并增强导航推理能力。
我们为基于MLLM的VLN智能体在连续空间中引入了一种新颖的回溯机制，并凭经验证明了其在减轻错误传播和提升整体导航性能方面的关键作用。

II. 相关工作

A. 视觉语言导航（VLN）

视觉语言导航（VLN）是一项任务，其中智能体学习遵循人类指令在先前未见过的环境中导航[1], [19]。大多数现有的VLN基准测试都建立在具有预定义导航图的离散化模拟场景上[2], [20], [21]。为了弥合模拟与现实世界应用之间的差距，Krantz等人[22]引入了一个基准测试，将VLN任务从离散环境扩展到连续环境（CE），使其更能代表真实世界场景。为了提升VLN-CE的性能，研究人员采用了来自离散设置的跨模态对齐策略，并提出了旨在弥合传统VLN与连续导航场景之间差距的路径点模型，例如CMA、RecBERT和ETPNav [4], [22], [8]。然而，VLN策略的决策过程仍然严重依赖于生成路径点，而这些路径点经常与预期的子目标不符。此外，除了准确路径点预测的挑战之外，将这些系统部署在物理机器人平台上仍然表现出有限的泛化能力。因此，我们的目标是增强路径点预测并利用MLLM强大的多模态推理能力，整合视觉和面向动作的模态。我们的目标是探索在连续环境中的免训练VLN，使用MLLM作为零样本导航器。

B. 路径点预测

在VLN-CE中，智能体在连续的3D空间中导航，而不是像离散VLN中那样依赖固定的导航图。由于没有离散节点的便利，智能体必须动态预测可导航的路径点。Hong等人[4]引入了一个路径点预测器，它在导航过程中生成候选路径点，然而，这种方法严重依赖空间线索，常常导致生成的路径点与预期子目标不符。为了解决这个限制，Dong等人[6], [8]通过仅在开放空间的深度图像上进行训练来提高路径点放置的准确性，他们认为RGB信息在室内环境中对特征表达和泛化能力的提升有限。此外，Li等人[23]增强了训练数据集以加强空间先验并捕捉更全面的真实世界场景表示，但仍维持了原始的网络架构。与先前未能有效利用RGB特征或缺乏明确空间约束，从而导致次优路径点放置的方法不同，我们的工作通过整合一个更强的视觉编码器（DINOv2 [11]）、一个用于RGB-D交互的掩码交叉注意力融合机制和一个占用感知损失函数来增强路径点预测。这些改进明确地为模型引入了空间约束，并增强了在多样化导航场景中的泛化能力。

C. 基础模型作为具身智能体

近年来，研究人员越来越多地将基础模型整合到各种具身领域中，如VLN任务，展示了利用这些模型作为有效导航智能体的巨大潜力[12], [13], [24], [25], [26], [27]。鉴于此，越来越多的研究利用LLM强大的泛化能力来提升VLN性能，要么通过检验LLM固有的导航推理能力，要么通过模块化框架将LLM整合到导航系统中[12], [13], [16], [28], [29], [30]。例如，MapGPT [30]构建了一个拓扑地图，使GPT能够理解全局环境，但仅限于离散设置，而DiscussNav [13]则采用多专家框架将不同的导航任务委托给GPT。然而，这些方法在很大程度上依赖于将视觉和空间信息转换为文本提示，这限制了它们在表示复杂空间关系方面的有效性[16], [31]。此外，尽管历史和回溯机制在基于学习的VLN-CE方法中已被证明是有效的[8], [18], [32]，但在使用MLLM作为导航器时，它们的重要性尚未得到充分研究。作为回应，本工作旨在通过利用MLLM作为导航智能体来推进VLN。具体来说，我们探索了在VLN-CE中通过整合丰富的历史背景和回溯功能所带来的性能提升，从而为VLN建立一个更鲁棒的框架。

III. 预备知识

A. 问题定义

在这项工作中，我们处理连续环境中的视觉语言导航（VLN-CE），其中一个自主智能体必须在连续的3D空间E中根据语言指令进行导航。设xt = (xt, yt, zt) ∈ E表示智能体在时间t的位置。智能体接收在均匀间隔的视点（例如，0°, 30°, …, 330°）收集的全景RGBD观测数据，得到12张RGB图像和12张深度图像 I = {(I_i^{rgb}, I_i^{depth}) | i = 1, …, 12}，其中I_i^{rgb} ∈ R^{H×W×3} 且 I_i^{depth} ∈ R^{H×W}。当前，智能体接收到指令 L = {l1, l2, …, ln}，其中每个li是指令的一个词元（token）。指令指定了如何从起始位置x_start ∈ E到达目标位置x_goal ∈ E。导航过程通过离散的底层动作展开，这些动作决定了移动方向和距离。通过根据指令执行这些动作，智能体旨在最小化导航错误并到达连续3D环境中指定的目标。

B. 路径点预测器

路径点预测器通过基于当前观测生成候选路径点，弥合了离散环境与连续空间之间的差距。对于开放环境中的任何给定位置，智能体捕捉RGB和深度全景图，每个全景图由在30度间隔捕捉的12张单视角图像组成。这些图像被编码成特征序列，表示为 F^{rgb} = {f_i^{rgb} | i = 1, …, 12} 和 F^{depth} = {f_i^{depth} | i = 1, …, 12}。RGB图像使用在ImageNet[10]上预训练的ResNet-50[9]进行编码，而深度图像使用另一个为点目标导航[33]预训练的ResNet-50进行编码。每个特征对(f_i^{rgb}, f_i^{{depth})通过一个非线性层W}m融合成一个组合特征f_i^{rgbd}。一个两层Transformer处理这12个融合特征，以分析空间关系并预测相邻的路径点。

每个单视角图像是方形的，具有90度的视场（FoV），覆盖三个30度的扇区。为了保持空间一致性，对每个f_i^{{rgbd}的自注意力被限制在其相邻特征上。Transformer输出f_i’}{rgbd}，它编码了以图像i为中心的空间关系。一个分类器生成一个120 × 12的热力图P，其中角度每3度间隔一次，距离从0.25米到3.00米，步长为0.25米。然后应用非极大值抑制（NMS）来提取前K个可导航路径点，K设为5。路径点预测器使用回归损失进行训练，该损失最小化了预测热力图P与地面真实热力图P之间的差异。具体来说，我们使用均方误差（MSE）损失，公式如下：

其中P是预测的路径点概率分布，P是地面真实热力图。这个损失确保模型能准确预测可导航路径点的空间分布。

IV. 方法

如图2所示，我们的方法包括两个关键组件：一个占用感知路径点预测器（Occupancy-aware Waypoint Predictor）和一个基于MLLM的导航器（MLLM-based Navigator）。路径点预测器（第IV-A节）通过集成一个更强的视觉编码器、掩码交叉注意力融合和一个占用感知损失来优化路径点选择，从而提高在连续空间中的预测准确性和可导航性。然后，基于MLLM的导航器（第IV-B节）处理候选路径点，利用视觉和文本信息来改进决策。它通过增加更精细的转向选项、跟踪过去的操作以及使用回溯策略来纠正错误和避免不必要的探索，从而增强导航能力。

A. 占用感知路径点预测器

视觉编码器升级：原始的路径点预测器使用一个基于ResNet-50的RGB编码器 $E^{resnet}$ ，该编码器在ImageNet上预训练，从每个RGB图像 $I_i^{rgb} (i = 1, ..., 12)$ 中提取视觉特征，产生嵌入 $f_i^{rgb} = E_resnet(I_i^{rgb})$ 。为了提高视觉表示的质量，我们用DINOv2[11]替换了ResNet-50，这是一个自监督的视觉Transformer，它提供了更丰富和更具迁移性的特征。新的RGB编码器 $E^{dino}$ 生成嵌入 $f_i^{rgb} = E^{dino}(I_i^{rgb})$ ，而深度编码器 $E^{depth}$ 保持不变，将深度图像编码为 $f_i^{depth} = E^{depth}(I_i^{depth})$ 。我们选择了DINOv2 Small，它的大小与ResNet-50相似，以平衡效率和表达能力，在不增加计算成本的情况下实现了更高的特征质量。

图 2. 我们的方法包括两个关键组件：一个占用感知路径点预测器和一个基于MLLM的导航器。路径点预测器通过集成一个更强的视觉编码器、一个掩码交叉注意力融合机制和一个占用感知损失来优化路径点选择，从而提高预测质量。基于MLLM的导航器处理候选路径点，利用视觉和文本信息来增强导航决策，并融合了更精细的转向选项、历史背景和一个回溯策略。图中的机器人是我们配备了OAK-D Pro摄像头（安装在70厘米高度）的Turtlebot 4移动机器人。
用于特征融合的掩码交叉注意力：在基线方法中，RGB和深度特征 $f_i^{rgb}, f_i^{depth})$ 仅通过一个非线性层W^m进行融合。然而，这种简单的融合方式没有充分利用RGB和深度模态的互补性[8]。具体来说，RGB提供了详细的纹理和语义，但缺乏深度信息；而深度提供了空间结构，但缺乏语义细节。一个简单的线性融合无法有效地结合它们，导致表示能力较弱。

为了改善特征交互并增强空间感知，我们用掩码交叉注意力替换了 $W^m$ ，类似于原始路径点预测器的Transformer块，以改善特征交互和增强空间感知。在交叉注意力机制中， $f_i^{rgb}$ 作为查询（queries），而 $f_i^{depth}$ 作为键（keys）和值（values），使RGB能够关注关键的深度区域。更新后的表示计算如下：
$f_i^{rgbd} = CrossAttention(f_i^{rgb}, f_i^{depth}, mask)$ (2)
此处的掩码用于保持空间一致性，每个f_i’^{rgbd}被限制在其相邻特征上。

占用感知损失：现有的路径点预测器仅依赖地面真实热力图进行训练，忽略了环境约束。这可能导致路径点被放置在受阻区域，使其无法到达。为了解决这个问题，我们引入了一个占用感知损失，它包含了基于深度的约束，确保路径点被放置在可导航区域，并提高导航能力。

我们拥有每个位置捕捉到的深度图 ${I_i^{depth} | i = 1, ..., 12}$ ，可以计算每个区间的最短相对距离以及智能体在水平面上的位置。具体来说，因为每个 $I_i^{depth}$ 的水平视场（HFOV）是90度，我们均匀选择四个覆盖360度视场的深度图，并从原始大小为 $w \times h$ 的深度图中均匀间隔的列中提取最小深度值，形成一个大小为30×h的缩减深度图，以代表每个90度的深度值。对于缩减深度图的每一列n，我们提取具有最小深度值的像素 $(n, m)$ ，其中 $n \in [1, 30] ， m \in [1, h]$ ，并计算其相对于智能体位置原点的3D坐标 $Cn = (x_n, y_n, z_n)$ ，公式如下：
$Cn = I_i^{depth}(n, m) · d_{n,m}$ (3)
其中 $d_{n,m}$ 代表像素 $(n, m)$ 光线的方向。然后可以计算出到原点的水平面距离 $D_n$ ：
$Dn = sqrt(x_n^2 + y_n^2)$ (4)
将四个深度图的结果连接起来，最终得到一个120×1的矩阵 $D = {D_k | k = 1, ..., 120}$ ，代表120个区间上的最短距离。

给定计算出的最短距离D，我们通过将这些距离映射到一个离散的120×12网格来构建占用掩码 $M ∈ {0, 1}^{120×12}$ ，确保与分类器的热力图P对齐，其中角度每3度间隔一次，距离从0.25米到3.00米，增量为0.25米。通过最小化这个损失，模型不鼓励在不可导航区域进行预测，同时增强在可通行位置的置信度。这提高了在连续环境中生成的路径点的准确性和安全性。

从公式1的原始损失扩展，最终的目标函数平衡了这两个部分：
$L_{total} = L_{vis} + λ_{occ} * L_{occ}$ (7)
其中 $λ_{occ}$ 控制占用约束的相对重要性。这种组合损失确保预测的路径点不仅准确，而且在真实世界导航中是可行的。

在这里插入图片描述

图 3. 给定一个指令，MLLM首先检查是否存在“先前规划”，然后回顾已探索的“历史”。基于当前的“动作选项”，它生成一个推理过程，更新计划，并选择下一个动作。值得注意的是，一个回溯策略允许机器人在必要时返回到之前访问过的位置。

对于每个角度索引k，我们确定相应的距离d_j是否在可导航范围内：
在这里插入图片描述
其中 $M_{k,j} = 1$ 表示在角度k和距离d_j的区域是可通行的，M_{k,j} = 0表示有障碍物阻挡了超过D_k的导航。

为了强制路径点预测与物理可导航区域对齐，我们引入了基于预测热力图P和生成的占用掩码M之间的二进制交叉熵（BCE）损失的占用感知损失：
$L_{occ} = BCE(P, M)$ (6)

B. MLLM作为导航器

给定以下组件：（1）指令（L），（2）观测（Ot），包括我们路径点预测器在每个时间步预测的可导航路径点的视觉数据集，（3）动作空间（At），包括离散的方向指令（例如，“向左转到…”）及其对应的视点观测或图像，以及（4）历史（Ht），一个记录智能体先前动作的简洁记录，以在多个导航步骤中保持上下文。我们从两个不同角度精心设计了一个历史感知和时空推理框架，以增强MLLM的导航能力：（1）一个历史感知的时空单专家提示系统，以及（2）一个自适应的路径规划程序。

历史感知的单专家提示系统: 先前的VLN方法如NavGPT[12]和DiscussNav[13]依赖多个专门的“专家”（例如，用于指令解析、历史摘要或视觉输入的文本转换），这不仅有累积信息丢失和冗余计算的风险，而且仅限于离散环境。相比之下，我们的方法借鉴了MapGPT[30]的单专家范式并将其扩展到VLN-CE。具体来说，通过在单个模型中统一文本和视觉处理，我们的智能体可以处理连续的空间设置，而无需独立的模块。如图3所示，在每个时间步（t），它处理所有相关提示，包括任务描述、指令、历史、观测和动作选项，并精确输出一个选定的动作，从而整合了推理过程并避免了无关的中间阶段。

考虑到连续环境的内在复杂性，我们从两个不同的角度系统地扩展了动作空间，以增强在VLN-CE中的适应性。首先，我们引入了多尺度的转向提示。我们区分了用于微小方向调整的“轻微左转”（≈30°）和用于大角度旋转的“急剧左转”（≈90°），而不是单一的左转动作。这种粒度提高了智能体更精确地与可导航路径点对齐的能力。其次，我们集成了RAM[34]模型，用于RGB图像中的细粒度物体识别和分类，从而为每个检测到的物体提供零样本的语义标签。这种方法丰富了智能体对候选路径点的态势感知。设 $S = {s1, s2, ..., sn}$ 表示场景中物体的集合。检测过程分析RGB图像（候选路径点）以描述图像内的每个物体，形式化表示为：
$S_i = RAM(I_{rgb}), i = 1, 2, ..., n. (8)$
我们完整的动作空间如“图3-动作选项”所示。

历史导航意识对于避免重复探索和实现战略性移动至关重要。针对第二节中讨论的历史表示的局限性，我们通过从先前动作空间中加入额外的场景描述来扩展历史信息，并与RAM模型结合。我们的历史记录随后扩展为如“图3-历史”所示。

带回溯的自适应路径规划: 像Open-Nav[16]这样的先前基于LLM的智能体导航器通常以局部视角操作，分析当前的候选路径点。我们利用MLLM能够利用多步规划的能力，特别是在环境结构以图文形式可用时。这种多步推理有助于管理涉及复杂或模糊指令的较长任务。为了进一步提升导航性能，我们引入了一个自适应的路径规划模块，其中模型迭代地生成、更新和完善一个带回溯机制的多步计划。这个计划包含了对候选节点的潜在探索，并且重要的是，包含了回溯策略，允许智能体在纠正错误和避免冗余探索时重访先前的位置。

如“图3-思考&动作&回溯”所示，在每一步，除了选择的单一动作外，模型还生成一个简短的“思考”，描述它将在接下来的几步中如何进行。这个计划可能涉及访问几个节点、返回到先前探索的区域，并在获得新信息时重新评估。计划P成为下一步的输入，这意味着模型可以根据新的观测或上下文细节修改其先前的意图。如果选择的路径没有产生所需的标志物或未能匹配关键指令，智能体可以通过在动作空间末尾的一个额外动作选项回到先前的节点：
['F. 向相反方向返回到上一个位置']
这种机制在大型或复杂的环境中特别有价值，因为错误或不完整的指令常常导致死胡同。

V. 实验

A. 实验设置

模拟环境 我们的实现建立在Habitat模拟器[35]之上。我们在MP3D[36] val-unseen集上评估我们的路径点预测器，严格遵守[4]中概述的评估协议。此外，我们通过与几种基于学习的VLN方法以及基于LLM/MLLM的方法进行基准测试来评估我们导航器的性能，遵循Open-Nav[16]在100个片段上的评估框架，以确保直接可比性。路径点预测器是一个基于学习的模块。在训练中，我们使用AdamW优化器[37]，批大小为128，学习率为 $10^{-6}$ ，并训练模型300个周期。 $λ_{occ}$ 设为0.5。相比之下，MLLM导航器通过gpt-40-2024-08-06 API部署，作为我们的零样本推理后端。

真实世界环境 我们使用一台配备了OAK-D Pro摄像头（安装在70厘米高处）的Turtlebot 4移动机器人进行真实世界实验。我们的方法完全依赖摄像头进行感知，没有任何来自外部建图模块的贡献。我们评估了带回溯和不带回溯机制的方法，并与[4]中提出的预训练模型进行了比较，将这些系统部署在语义丰富的室内环境中的Turtlebot 4上。机器人以精确的30°增量旋转，捕获12张图像形成一个完整的全景视图，随后由我们的导航系统处理。所有方法都在一台配备NVIDIA RTX 3080移动GPU（16 GB VRAM）的笔记本电脑上实时执行。在每个导航步骤，机器人根据预测的角度和方向前进。为了评估，我们遵循DiscussNav[13]中建立的实验协议，定义了25个独特的导航指令，这些指令包含开放词汇的标志物（例如，“双臂机器人”）、细粒度的标志物细节以及涉及多个房间转换的场景。这个评估框架旨在严格评估我们的方法相对于基于学习的基线的泛化能力和鲁棒性。

评估指标 我们使用四个主要指标评估我们的路径点预测器。具体来说，|Δ|衡量预测路径点数量与真实数量之间的差异，而%Open表示预测路径点中未被障碍物阻挡的比例。 $S_{way}$ 表示模型预测的路径点与目标热力图之间的一致性。此外， $d_c$ 表示Chamfer距离， $d_H$ 表示Hausdorff距离，两者都广泛用于量化点云之间的空间差异。
我们使用标准的VLN评估指标来评估我们的导航器与其他基于学习的VLN方法和LLM/MLLM方法的性能：成功率（SR）、神谕成功率（OSR）、成功率加权路径长度（SPL）、轨迹长度（TL）、导航误差（NE）和碰撞次数。与Open-Nav[16]中的评估协议一致，如果智能体在VLN-CE环境中停在距离目标3米以内，则认为尝试成功，而在真实世界场景中则采用更严格的2米阈值。这些标准确保了在不同设置下的平衡和公平评估，考虑了导航精度和空间约束。

B. 模拟环境中的结果

表I展示了在Habitat模拟器的R2R-CE数据集上各种模型的综合性能比较。该表分为两个部分：监督方法（上部分）和零样本方法（下部分）。受益于领域特定训练的监督方法，在模拟环境中获得了更高的成功率（分别为52%和60%）和在其他指标上的稳健性能，因此具有内在优势。相比之下，无需任何任务特定微调即可部署的零样本模型通常表现出较低的SPL和SR。当严格在零样本条件下评估时（下部分），我们的零样本方法优于所有其他零样本方法，达到了51%的OSR，29%的SR和22.46%的SPL。这些结果突出了我们方法卓越的路径点对齐和决策能力，这转化为增强的目标达成能力和路径效率。总的来说，我们的发现证实，在零样本设置中利用可泛化的表示可以显著提高导航性能，缩小与全监督模型的差距。表III展示了在MP3D Val-Unseen数据集上不同路径点预测器的比较。我们的方法实现了最高的%Open（87.26%），表明在无障碍区域有更好的路径点预测。它还达到了最低的d_H（1.96），表明路径点对齐有所改善。

表 I
R2R-CE数据集上模拟环境的比较

方法	TL	NE	OSR↑	SR↑	SPL↑
监督学习
CMA[4]	11.08	6.92	45	37	32.17
RecBERT[4]	11.06	5.8	57	48	43.22
BEVBert[38]	13.63	5.13	64	60	53.41
ETPNav[17]	11.08	5.15	58	52	52.18
零样本
Random	8.15	8.63	12	2	1.50
LXMERT [31]	15.79	10.48	22	2	1.87
MapGPT-CE-GPT4o [30]	12.63	8.16	21	7	5.04
DiscussNav-GPT4[13]	6.27	7.77	15	11	10.51
Open-Nav-Llama3.1[16]	8.07	7.25	23	16	12.90
Open-Nav-GPT4[16]	7.68	6.70	23	19	16.10
Ours	13.09	7.01	51	29	22.46

表 II
真实世界环境的比较

方法	SR↑	NE↓
RecBERT [4]	20	4.36
Ours (w/o Backtrack)	24	3.28
Ours (with Backtrack)	36	3.06

表 III
MP3D VAL-UNSEEN上路径点预测器的比较
Δ: 路径点差异, %OPEN: 在无障碍区域预测; dc: CHAMFER距离, dH: HAUSDORFF距离

#	模型	Δ↓	%Open↑	dc↓	dH↓
1	Baseline	1.37	80.18	1.08	2.16
2	U-Net [39]	1.21	52.54	1.01	2.00
3	RecBERT [4]	1.40	79.86	1.07	2.00
4	ETPNav [17]	1.39	84.05	1.04	2.01
5	Ours	1.41	87.26	1.03	1.96

C. 真实世界环境中的结果

我们还在真实世界环境中进行了实验，如表II所示。为了比较，我们选择了RecBERT[4]，这是[16]中报道的真实世界任务中性能最好的监督训练方法。此外，BEVBert[38]和ETPNav[17]需要构建预先映射的真实世界环境，使得比较不公平。我们的方法在成功率上取得了比RecBERT更高的性能。虽然预训练方法在模拟环境中可能提供优势，但这些优势并不总能转化为真实世界的任务。通过消除对大量预训练的需求，我们的方法缩小了与全监督方法的性能差距，并保持了卓越的可解释性和适应性，使其对未建模的真实世界扰动更加鲁棒。此外，我们比较了我们提出的带回溯和不带回溯机制的方法。经验结果表明，启用回溯能持续带来更高的成功率和更低的导航误差。通过允许智能体检测并从次优的路径点选择中恢复，回溯缓解了累积的错误。这确保了即使初始预测的路线不完美，系统也能有效地修正其轨迹，从而在复杂、动态的真实世界场景中实现更可靠的目标达成性能。补充视频中包含了TurtleBot 4导航的演示。

D. 消融研究

路径点预测器 我们进行了一项消融研究，以评估不同组件对路径点预测的影响，如表IV所示。基线[4]使用ResNet-50编码器，批大小为64，无用于RGBD融合的交叉注意力，也无占用感知损失，实现了S_way=1.40，79.86%的路径点在可导航区域。将批大小增加到128略微提高了S_way(1.41)，但降低了%Open，显示出微小的益处。用Dinov2替换ResNet-50增强了对齐度（S_way=1.42）和%Open（80.45%），展示了更强特征表示的优势。当整合占用感知损失时，结果最好，将S_way提升到1.48，%Open提升到87.26%，并减少了空间误差（d_c=1.03, d_H=1.96）。这些发现证实，结合更强的编码器、注意力机制和障碍物感知损失能增强路径点预测的质量。

导航器 表V展示了一项消融研究，检验了我们增强的路径点预测器和启用回溯的导航器如何相互补充以改进导航。基线配置（#1）。当仅引入增强的路径点预测器时（#3），NE降低到7.11，SR增加到26%，证实了改进的路径点预测可以减少错位和绕路。通过整合回溯机制（#2, #4），我们观察到碰撞率大幅下降（从0.067到0.044），凸显了系统在路线探索中从错误中恢复的增强能力。当我们的完整框架被激活时（#4），系统达到了最高的SR=29%并获得了最佳的SPL=22.46%，表明高效的路径点预测和鲁棒的失误恢复共同产生了卓越的导航性能。这些结果突出表明，虽然每个提出的组件都独立地提升了导航的准确性和可靠性，但它们的组合提供了协同优势，提供了最有效和碰撞鲁棒的导航策略。

表 IV
不同路径点设置的消融研究
BS: BATCH SIZE; C: CROSSATTN; O: OCCUPANCY-AWARE LOSS

RGB Encoder	BS	C	O	Sway↑	%Open↑	dc↓	dH↓
ResNet-50	64	✗	✗	1.40	79.86	1.07	2.00
	128	✗	✗	1.41	79.28	1.08	2.04
Dinov2	128	✓	✗	1.42	80.45	1.07	2.01
	128	✓	✓	1.47	82.15	1.09	2.09
	128	✓	✓	1.48	87.26	1.03	1.96

表 V
增强路径点预测器和回溯策略的消融研究
在这里插入图片描述

VI. 结论与未来工作

在本文中，我们提出了一个零样本VLN-CE框架，它优化了路径点预测和自适应决策，实现了鲁棒的轨迹规划和高效的导航错误恢复。与以往的方法不同，我们的方法通过重新设计其架构来增强路径点预测器：利用一个鲁棒的视觉编码器、一个掩码交叉注意力融合策略和一个占用感知损失函数，产生更准确和避障的预测。我们还首次探索了MLLM作为VLN-CE中的导航器，并为基于MLLM的VLN智能体引入了一种新颖的回溯机制，证明了我们的方法显著缩小了与监督方法的性能差距，并突出了将显式空间推理与MLLM的泛化能力相结合的影响，这一点在模拟和真实世界环境的大量实验中得到了验证。展望未来，我们计划扩展我们的回溯机制以支持多步撤销操作，并通过整合视觉语言分割和场景感知提示来增强语义理解，这可以进一步纠正更深层次的导航错误并提高导航性能。