当前位置：首页 > news >正文

NavA3——双VLM架构下的先“推理解析”后“定位导航”：理解任意指令，导航至任意地点，查找任意目标

news 2025/8/22 7:00:07

前言

由于我司这月最新签的一个订单

长沙分部每月每签下一个订单，都会事后总结成功的原因，比如这一次的原因是

一者有贵人推荐
二者团队于6.4-7.19那一个半月实实在在的证明了自身的具身实力
详见此文《Q-chunking——带有动作分块的强化学习：基于人类演示，进行一定的连贯探索(且可做到无偏的n步价值回溯)》的开头
三者大家的共同努力

又包含了视觉导航，故对导航这方面的研究与日俱深，顺带可把本博客内导航解读系列便得更为深入、系统

而关注到这篇文章，纯粹是因为它的标题——理解任意指令导航至任意地点查找任意目标(Understanding Any Instruction, Navigating Anywhere, Finding Anything)，如果确能如此，你就说 6不6吧，^_^

第一部分 NavA3

1.1 引言与相关工作

1.1.1 引言

目前，具身导航方法大致可分为两类：

视觉-语言导航VLN (Hong 等，2021；Zheng 等，2025；Chen 等，2024b)
VLN任务要求智能体依照详细的分步指令行动，如“向左转，走出门，然后直行”。虽然这类任务需要精确的空间理解，但往往依赖于过于具体的指令，而这些在自然环境中很少由人类直接提供
物体导航ObjectNav (Cai 等，2024a；Qi 等，2025；Gao 等，2025；Gong 等，2025)
ObjectNav任务旨在定位预定义的物体类别（例如“在场景中找到任意椅子”），只要遇到目标物体的任意实例即可完成任务，无需考虑空间上下文或具体需求

然而，现实世界中的人类指令往往涉及高层次意图，这需要复杂的推理和空间感知。例如，“我想要一杯咖啡”或“我想吃茶室左侧的水果”这样的请求，不仅要求理解目标本身，还需要对物体之间的空间关系进行推理

上述问题凸显了当前导航任务与现实需求之间的根本差距，极大地阻碍了具备高级人机交互能力的具身智能体的发展

为了解决长时序导航中的挑战，来自的研究者提出了NavA3

其paper地址为：NavA3: Understanding Any Instruction, Navigating Anywhere, Finding Anything
其作者包括
Lingfeng Zhang1,2,*, Xiaoshuai Hao2,*,†, Yingbo Tang3, Haoxiang Fu6, Xinyu Zheng4, Pengwei Wang2, Zhongyuan Wang2, Wenbo Ding1,✉, Shanghang Zhang2,5,✉
其项目地址为：navigationa3.github.io
其GitHub地址为：github.com/linglingxiansen/NavA3

这是一种新颖的分层框架，将这一复杂问题分解为两个阶段：全局策略和局部策略，如下图图1所示『全局策略利用Reasoning-VLM解释高层指令(例如，“晾衣服”→衣架)，并通过三维场景理解确定目标位置(阳台)。局部策略则采用Pointing-VLM进行路径点导航，并结合作者的NaviAfford模型(NaviAfford模型通过空间可供性理解，能够准确定位目标物体衣架)，实现精确的目标物体定位』

全局策略利用视觉语言模型VLM(Ji等，2025；O’Neill等，2024；Tan等，2025；Zhai等，2024)强大的推理能力，称为Reasoning-VLM，用于解析高层次的人类指令

Reasoning-VLM根据这些指令识别需要定位的关键目标物体，并利用带注释的全局三维场景，确定目标物体最可能出现的空间。例如，当接收到“我想要一杯咖啡”这样的指令时，全局策略会推断咖啡机很可能位于茶水间，从而引导智能体前往该高概率区域
在全局策略完成后，局部策略接管，专注于在已确定的目标区域内进行探索和精确的目标物体定位。此时，VLM被称为Pointing-VLM，从局部三维场景中选择用于探索的路径点

在每个航点，作者进行全景感知，并利用作者专门训练的NaviAfford模型(Pointing-VLM的实现)来实现对目标物体的精准识别。如果检测到目标物体，作者会将其位置从代理的视角转换到机器人的坐标系，从而实现导航至最终目标

NaviAfford模型是在包含100万对样本的空间物体可供性数据集上训练的，能够实现具备空间感知的物体与可供性定位。这使得模型能够理解复杂的空间关系，例如“靠窗的杯子”或“桌子左侧的空位”

作者声称，大量实验评估表明，NavA3在大规模真实环境中的长时导航任务上，实现了业界领先的性能。且声称，他们的系统展现出卓越的跨载体能力，能够适应多种机器人实例，凸显了其在实际应用中的巨大潜力

1.1.2 相关工作

首先，对于具身导航

具身导航研究主要聚焦于两大范式：

视觉-语言导航VLN
在VLN领域
NavGPT（Zhou、Hong与Wu，2024）等系统利用GPT-4o（Hurst等，2024）实现自主动作生成
而DiscussNav（Long等，2024）则减少了人工参与
InstructNav（Long等，2025）将导航任务分解为若干子任务
Nav-CoT（Lin等，2025）则采用链式思维推理进行模拟
MapNav（Zhang等，2025b）通过空间表示优化记忆
NaVid（Zhang等，2024b）则保持时间上下文
目标物体导航ObjectNav（Chattopadhyay等，2021；Truong、Chernova与Batra，2021）
针对ObjectNav
$\rightarrow$ PirlNav（Ramrakhya等，2023），和XGX（Wasserman等，2024）等方法模仿人类演示
$\rightarrow$ L3MVN（Yu、Kasaei与Cao，2023）以及Uni-NaVid（Zhang等，2024a）等则通过构建语义地图或利用VLMs提升性能

然而，这些方法主要专注于详细指令，缺乏理解高层次人类指令或执行面向空间感知的开放词汇对象定位的能力，这限制了其在长时序导航任务中的有效性

其次，对于基于VLM的空间推理

空间推理对于机器人与物理世界的交互至关重要（Beyer等，2024；Wang等，2023；Luo等，2023；Liu等，2024, 2023；Doveh等，2024）

研究人员开发了多种方法，通过从图像中提取空间信息来增强VLM的空间理解能力

例如，SpatialVLM（Chen等，2024a）将图像转换为以对象为中心的点云，而SpatialRGPT（Cheng等，2024）则通过空间场景图提升区域级推理能力
RoboPoint（Yuan等，2025）引入了用于精确动作预测的合成数据集，SpatialBot（Cai等，2024b）等研究则利用RGB-D数据实现全面的空间理解
近期进展如SpatialCoT（Liu等，2025）和VILASR（Wu等，2025）聚焦于优化推理过程

然而，这些方法在开放词汇空间感知对象指向和长时序导航集成方面仍然存在挑战，而这些能力对于实际应用至关重要

1.2 NavA3的方法论

如图2所示，作者的NavA3框架采用分层的全局到局部方法，将语义推理与精确的空间定位相结合，以应对长距离导航任务『分层方法包含两个阶段：全局策略利用Reasoning-VLM解释高层次的人类指令，并在三维场景中标记出可能的目标区域比如team room。当到达目标区域后，局部策略则使用Pointing-VLM在每个路径点搜索目标物体比如coffee machine。如果未找到目标，则预测下一个路径点；若检测到目标，则在第一人称视角图像上标记该物体，并导航至最终目的地』

全局策略利用Reasoning-VLM解释高级别的人类指令（例如：“我想要一杯咖啡”），推断目标物体（咖啡机）并识别可能的位置（如茶水间、厨房区域）
到达该房间后，局部策略则使用Navi-Afford模型（Pointing-VLM）对全景RGB图像进行分析
在每个航点，模型会结合观测数据和本地地图，判断目标物体是否存在；
$\rightarrow$ 如果发现目标，模型会指示其具体位置以便导航；
$\rightarrow$ 如果未找到，则预测下一个最优航点，或调用 Reasoning-VLM 继续探索，直到定位到目标为止

1.2.0 预备知识：问题定义、三维场景构建

1.2.0.1 问题定义

作者将长时序具身导航任务定义如下：给定一个高层次的人类指令 $I$ （例如，“我想喝咖啡”或“帮我把衣服晾到阳台上”），具身智能体必须在大型室内环境 $E$ 中导航，以定位并到达满足指令所隐含语义和空间要求的特定目标物体 $O$

智能体从任意位置 $p_{0}$ 出发，可获取自我中心的 RGB-D 观测 $o_t$ 以及全局三维场景表示 $S$ 。与传统的 ObjectNav 任务不同，后者在找到任意预定义类别物体实例后即终止，而本任务要求智能体进行多步推理，从高层次指令中推断具体目标物体（例如，从“我想喝咖啡”推断出“咖啡机”），识别最可能的空间位置（例如厨房或茶水间），并导航至符合上下文要求的精确物体实例
任务成功的标准是：智能体在保持可视的前提下，能够到达距离目标物体 1 米以内的位置，体现出对语义的准确理解和在复杂真实环境中的精准空间导航能力

1.2.0.2 三维场景构建

为了实现真实环境中的高效导航，作者采用简单的重建流程(如图3所示)构建分层三维场景表示『利用2D到3D重建技术，从RGB扫描图像中重建3D场景。随后，这些场景被转换为带有标注的俯视图，并进一步由视觉-语言模型（VLMs）处理，用于导航规划』

具体而言，流程从多个视角采集的 RGB 图像序列开始，这些图像会通过一个 2D 到 3D 的重建流程进行处理

利用配备有LiDAR传感器的移动设备，作者生成了一个由以下内容表示的高密度点云：

$P=\left\{p_{i} \mid p_{i} \in \mathbb{R}^{3}\right\}_{i=1}^{N}$

其中每个点 $p_i$ 表示场景中的一个三维坐标。重建过程采用特征点匹配算法，在连续帧之间建立对应关系，随后进行网格重建，以生成连贯的三维几何结构。为简化该流程并确保高质量结果，作者使用了三维扫描仪应用程序

重建后的三维场景被转换为俯视图，用于全局和局部策略

在全局策略中，作者采用了MapNav(Zhang等，2025b)的方法，对房间和区域级别进行语义标注，例如“茶水间”、“会议室”、“阳台”和“工位”。这使得VLM能够有效理解空间语义并推理物体位置

标注后的全局场景表示如下
$S_{\text {global }}=\left\{R_{j}, A_{j}\right\}_{j=1}^{M}$
其中， $R_{j}$ 表示几何区域， $A_j$ 表示对应的语义标注
对于局部策略，作者直接使用自顶向下的地图 $M_{\text {local }}$ ，不包含标注

1.2.1 全局策略

全球策略利用视觉语言模型(Reasoning-VLM)的高级推理能力，弥合高级人类指令与导航目标之间的语义鸿沟

如图2所示

给定人类指令 $I$ 和标注过的全局三维场景 $S_{\text {global }}$ ，作者将全局推理任务视为一个多模态问题，其中Reasoning-VLM同时执行语义对象推理和空间位置预测

为了支持系统性推理，作者设计了一个结构化的提示模板，以有效引导Reasoning-VLM

‘‘You need to complete the human instruction: I. Now given this top-down scene view Sglobal and several optional regions, 
please think about what object you should find to complete the instruction and where you should look for this object.Please show your thinking process and give your answer at the end.’’

Reasoning-VLM 处理文本指令和带注释的全局场景的视觉表示，以实现分层推理

它首先通过语义分解推断完成指令所需的目标物体 $O^{*}$
$O^{*}=f_{\text {semantic }}(I)$

然后，模型分析空间语义关系，以识别目标区域 $R^{*}$ ，即物体最有可能出现的区域，由 $R^{*}=\arg \max _{R_{j} \in S_{\text {global }}} P\left(O^{*} \mid R_{j}, A_{j}\right)$ 定义，其中 $P\left(O^{*} \mid R_{j}, A_{j}\right)$ 表示在区域 $R_{j}$ 且带有注释 $A_{j}$ 时找到 $O^{*}$ 的条件概率
在确定目标区域 $R^{*}$ 后，作者在其局部边界内随机采样一个航点 $w \in R^{*}$ ，并使用Pointing-VLM 引导智能体。该策略促进了稳健的探索，同时有效地将搜索空间缩小到目标物体可能所在的相关子区域，从而提升了搜索过程的效率

1.2.2 局部策略：NaviAfford 模型、导航流程

1.2.2.1 NaviAfford 模型

NaviAfford 模型为了实现精确的空间目标定位，作者开发了NaviAfford 模型（Pointing-VLM），如图4 所示是NaviAfford模型的训练与部署流程「NaviAfford模型通过学习各种室内场景中的物体与空间可供性，输出精确的点坐标。在导航过程中，该模型能够实时进行物体定位并生成目标点，随后本地策略将这些点转换为机器人坐标，从而实现对目标物体的高效导航」

在训练过程中，作者从LVIS 和Where2Place 数据集中整理了约50 K 张图像和1.0M 个问答对。且将实例分割掩码转换为带有边界框坐标 $\left(x_{1}, y_{1}, x_{2}, y_{2}\right)$ 的目标检测格式，并在每个框内采样5-8 个代表性点，以增强空间细粒度并提升定位精度，从而支持Reasoning-VLM的能力

他们的数据集构建系统性地生成了两类可供性标注，以实现全面的空间理解

对于物体的可操作性，计算方向关系(上、下、左、右、前、后)，以在特定情境中识别目标物体
例如，针对“找到沙发前面的电视”这一查询，确定目标对象及其与参照物之间的空间关系
对于空间可供性，识别满足这些约束条件的空闲区域，使模型能够理解可用于导航和放置的空间

该双重可供性方法能够生成训练样本，从而捕捉现实世界导航所需的复杂空间关系

NaviAfford 模型架构遵循视觉-语言框架，通过独立的分词器和视觉编码器路径处理输入问题 $Q$ 和RGB 图像 $V$

该架构表示为

$\operatorname{NaviAfford}(Q, V)=f_{\mathrm{LLM}}\left(f_{\mathrm{text}}(Q), f_{\mathrm{proj}}\left(f_{\mathrm{vision}}(V)\right)\right)$

其中， $f_{\text {text }}$ 处理文本查询， $f_{\text {vision }}$ 对视觉输入进行编码， $f_{\text {proj }}$ 将视觉特征映射到LLM 嵌入空间

最终，函数 $f_{\mathrm{LLM}}$ 生成文本点坐标，且训练目标采用有监督微调（SFT），损失函数为：

$\mathcal{L}=-\sum_{i=1}^{N} \log P\left(t_{i} \mid t_{<i}, Q, V\right)$

其中 $t_{i}$ 表示目标文本序列中包含点坐标的第 $i$ 个token

在 Navi-Afford 的本地策略中，作者输入以自身为中心的 RGB 视角以及基于空间关系的目标对象查询，无需样本即可将模型部署到真实环境中。该模型输出精确的点坐标，具体用法详见本地策略部分

1.2.2.2 导航流程

在本地策略中，系统采用了一种基于系统性航点探索的细粒度目标定位与导航策略

如图2所示

智能体在每个航点通过旋转扫描获取全景RGB视图

NaviAfford模型对这些视图进行处理，以检测并精确定位目标物体

一旦检测到目标，模型会输出多个点坐标，通过取平均值选择中心点，从而实现稳健的定位
为了将像素坐标转换为机器人坐标，作者使用相机内参函数
$\left[\begin{array}{l} X \\ Y \\ Z \end{array}\right]=\left[\begin{array}{c} \frac{\left(u-c_{x}\right) \cdot d}{f_{x}} \\ \frac{\left(v-c_{y}\right) \cdot d}{f_{y}} \\ d \end{array}\right]$
其中 $f_{x}$ 和 $f_{y}$ 为焦距， $c_{x}$ 和 $c_{y}$ 为主点坐标， $d$ 是像素 $(u, v)$ 处的深度。这确保了能够有效地导航到目标物体
如果未检测到目标对象，系统将执行两阶段决策流程
首先，Reasoning-VLM 分析局部三维场景和历史探索数据，以判断是继续探索当前区域还是转移到新区域
如果选择继续，NaviAfford 模型会识别下一个最佳探索点。否则，系统会根据以往的搜索结果，选择最有潜力的房间或空间进行探索，从而实现高效的区域切换

1.3 实验：实验细节、与SOTA方法的比较、消融研究

1.3.1 实验细节：评估基准、评估指标、实现细节、基线模型

第一，对于评估基准

为了评估长时序导航性能，作者建立了一个包含五个不同场景的基准测试：会议室A、会议室B、茶水间、工作区和阳台。每个场景包含10个导航任务，共计50个任务
针对每种方法，作者对每个任务进行了10次滚动实验，以最大程度减少随机性。人类专家制定了高层次指令并关联语义对象，确保每个场景中的目标对象具有唯一性
每个任务在不同的起始条件下测试五次以验证是否可靠
在执行过程中，智能体可以自由与环境交互，利用自我中心的RGB-D感知、航路点选择和动作控制
且为了评估不同的PointVLM模型，作者选取了1000张未出现在训练集中的图像

第二，对于评估指标

在具身导航任务中采用了两种标准评估指标：导航误差（NE）和成功率（SR）

前者NE衡量智能体最终位置与目标之间的欧氏距离（以米为单位），数值越低表示性能越好
后者SR表示智能体成功到达目标的导航事件占比，具体定义为距离目标1米以内即视为成功

作者在10个任务上分别进行5次测试（共50次试验），并报告平均成功率（Avg. SR）。此外，在PointVLM评估中，采用准确率（Acc）作为指标，定义为预测点中落在真实掩码内的正确点数与总预测点数之比

第三，对于实现细节

对于Reasoning-VLM，作者采用GPT-4o来解释高级人类指令并做出空间决策
Pointing-VLM则使用NaviAfford模型，该模型在1.0M空间感知对象可供性数据集上训练，初始化权重采用预训练的Qwen2.5-VL-7B，并按照(Zheng等，2024b)的方法进行完全微调

实验在四块H100GPU上进行，优化器为AdamW，学习率设为10^-5，训练一个epoch。每块GPU处理的批量大小为4，梯度累积步数为2，最终有效批量大小为32

为验证跨形态能力，作者将系统部署于RealMan轮式机器人和Unitree Go2四足机器人，两者均配备Intel RealSense D435i相机以实现RGB-D感知

第四，对于基线模型

现有导航方法在处理包含高级人类指令的长时任务时常常表现不佳。为确保公平对比，作者通过修改指令格式以提供明确引导来调整其任务设定：“你需要完成以下指令：我想喝咖啡。找到目标物体以完成指令，并在其附近停下。”

此外，作者还为基线模型提供俯视的全局3D场景信息

评估了三类基线模型：

闭源通用VLM
包括GPT-4o（Hurst等，2024）
Claude-3.5-Sonnet（Anthropic）
以及 Qwen-VL-Max（Bai 等，2025）
开源通用视觉语言模型（VLMs）
如 Janus-Pro-7B（Chen 等，2025）、Qwen2.5-VL-7B（Bai 等，2025）和 LLaVA-Next-7B（Li 等，2024b）
导航专用方法
包括NaVid（Zhang 等，2024b）、NaVILA（Cheng 等，2025）和 MapNav（Zhang 等，2025b），这些方法需要针对作者的长时序导航任务进行适配

1.3.2 与SOTA方法的比较

如表1所示，NavA3在所有评估场景下均显著优于现有的最先进方法，成功率（SR）平均达到66.4%，比最佳基线方法MapNav（Zhang等，2025b）的25.2%高出41.2个百分点

具体而言，NavA3在会议室A的SR提升了46.0%（72.0%对26.0%），会议室B提升了40.0%（64.0%对24.0%），茶水间提升了34.0%（60.0%对26.0%），工位区提升了48.0%（76.0%对28.0%），阳台提升了38.0%（60.0%对22.0%）
此外，在所有场景中，NavA3也大幅降低了导航误差（NE）：会议室A减少5.98米（1.23米对7.21米），会议室B减少6.49米（1.45米对7.94米），茶水间减少7.23米（1.89米对9.12米），工位区减少5.22米（1.56米对6.78米），阳台减少6.11米（1.34米对7.45米）
而通用型VLM（包括闭源和开源）在这一具有挑战性的长时序导航任务中通常成功率接近于零，我们的分层方法则有效弥合了高层指令理解与真实环境中精确空间导航之间的差距

1.3.3 消融研究

首先，对于作者的标注策略，作者在茶水间和工作站进行了消融实验。表2中的结果展示了语义标注在长时程导航中的重要性

与Nav A3 无地图相比，Nav A3 全标注（本方法）在茶水间提升了28.0 %（60.0% 对32.0 %），在工作站提升了36.0 %（76.0 % 对40.0%），平均SR 提升为32.0 %（68.0 % 对36.0 %）
与NavA3 无标注相比，在茶水间提升了24.0 %（60.0 %对36.0 %），在工作站提升了32.0 %（76.0 % 对44.0%），平均提升为28.0 %
相较于Nav A3 无房间级标注，Nav A3 全标注的方法在茶水间提升了24.0 %（60.0 % 对36.0 %），在工作站提升了36.0 %（76.0 % 对40.0 %），平均提升为30.0 %

这些结果证实，详细的语义标注能够提升Reasoning-VLMs 对空间关系的理解

其次，对于Pointing-VLMs 的效果

为了评估不同 Pointing-VLMs在目标定位方面的有效性，作者将 NaviAfford 模型与基线方法进行了对比

表4中的结果突显了NaviAfford 在可供性理解基准上的卓越表现，其平均可供性准确率比先前最先进的 RoboPoint（Yuan等，2025）提高了13.0%（70.8% 对 55.9%）
这种强大的可供性理解进一步转化为更优的导航性能，NaviAfford 的成功率（SR）相比 RoboPoint 提高了10.5%（68.0% 对 57.5%）
相比 GPT-4o（Hurst等，2024）提升了36.0%（68.0% 对 32.0%）
相比最佳开源模型 Qwen2.5-VL-72B（Bai 等，2025）提升了52.0%（68.0% 对 16.0%）