西交从语义到关系、重塑具身导航策略!RSRNav:基于空间关系推理的图像目标导航
-
作者:Zheng Qin, Le Wang, Yabing Wang, Sanping Zhou, Gang Hua, Wei Tang
-
单位:人机混合增强智能全国重点实验室,国家视觉信息与应用工程技术研究中心,西安交通大学人工智能与机器人研究所,杜比实验室,伊利诺伊大学芝加哥分校计算机科学系
-
论文标题:RSRNav: Reasoning Spatial Relationship for Image-Goal Navigation
-
论文链接:https://arxiv.org/pdf/2504.17991
主要贡献
-
提出了一种新的高效且鲁棒的图像目标导航方法:该方法通过在导航过程中持续推理目标与当前观测之间的空间关系来引导导航动作,有效解决了现有方法中存在的导航效率低下和对视角不一致敏感的问题。
-
通过计算目标图像与当前观测图像特征之间的相关性来建模空间关系:论文设计了三种逐步增强的关系建模版本,从简单的“极简关系”到复杂的“方向感知关系”,逐步提高了导航性能。
-
在三个基准数据集上进行了广泛的实验:实验结果表明,RSRNav在导航效率(SPL)方面表现优异,并且在“用户匹配目标”设置下,所有指标均显著优于现有的最先进方法,显示出该方法在真实世界应用中的潜力。
研究背景
-
视觉导航是具身人工智能中的一个重要研究领域,它要求智能体能够在不熟悉的环境中导航以到达特定目标。图像目标导航(ImageNav)任务因其在家庭机器人、增强现实系统和视觉障碍人士辅助等领域的潜在应用而备受关注。
-
现有的ImageNav方法主要分为模块化方法和端到端方法。模块化方法将任务分解为多个独立的子任务或模块,每个模块负责处理导航过程中的特定功能;而端到端方法则通过直接从数据中学习感知-动作策略,实现了从输入到智能体动作的直接映射。
-
尽管这些方法在提取语义嵌入方面取得了显著进展,但在导航效率和鲁棒性方面仍面临挑战。具体来说,语义特征向量无法为智能体提供目标在场景中的方位信息,这可能导致在导航和正确朝向目标时出现多余的动作,影响导航效率。
-
此外,在实际应用中,用户捕获目标图像的视角与智能体的视角可能不一致,这会导致在训练和应用之间出现性能下降的问题。
研究方法
-
RSRNav的核心在于训练一个感知-关系-动作导航策略。在每个时间步,智能体接收一个以自身为中心的RGB图像,并进行特征提取,同时对目标图像进行特征提取。
-
然后,通过计算这些特征之间的相关性来推理空间关系,并将生成的相关性线索传递给策略网络以预测动作。
-
论文逐步强化了相关性计算,最终开发出强大的方向感知相关性,以支持智能体更高效地导航和更精确地调整角度。
感知
-
与依赖复杂预训练编码器网络的先前方法不同,RSRNav采用了一个简单的ResNet-9网络,且不进行任何预训练。
-
该网络用于对目标图像和当前以自身为中心的图像进行编码,生成特征向量或特征图。
推理空间关系
极简关系
-
在感知步骤中,目标图像和当前图像被编码为稀疏特征向量。然后通过点积计算左右两半图像的相关性,将点积结果标准化为特征相似性,形成包含两个相关性分数的相关性线索,用于动作预测。
-
这一版本的实验结果表明,即使只传递两个相关性分数,也比传递完整语义信息的基线方法表现更好,这表明空间关系在导航中起着关键作用。
密集关系
-
为了建立更丰富、更详细的关系信息,论文通过细粒度的交叉相关性强化了“极简关系”。
-
具体来说,将目标图像和当前图像编码为密集特征图,然后通过交叉相关性层计算两个特征图之间的全局相似性,形成一个相关性矩阵。
-
将这个4D矩阵展平后,形成相关性线索,传递给策略网络。
方向感知关系
-
为了使智能体的导航更高效、角度调整更精确,论文在“密集关系”的基础上引入了方向信息。
-
首先,通过池化操作对相关性矩阵进行下采样,构建相关性金字塔。
-
然后,设置一个基于中心的方向感知搜索区域,在相关性金字塔上进行查找操作,以获取多尺度的相关性向量。
-
最后,通过一系列卷积层进一步融合相关性特征,并将其展平为相关性线索,传递给策略网络。
学习导航策略
-
使用强化学习训练导航策略π。智能体根据当前的相关性线索Ccue,通过策略π预测下一个动作。策略网络进一步编码这些信息,并结合历史信息生成状态嵌入s。
-
然后,使用演员-评论家网络根据状态嵌入s预测状态值ct和智能体的下一个动作at。
-
模型使用PPO算法进行端到端训练,奖励信号由两个子奖励函数组成,分别用于指导智能体学习在导航过程中如何接近目标以及如何调整角度。
实验
设置
- 任务设置和评估指标:
-
在图像目标导航任务中,当智能体在最大500步内停止在目标位置1米范围内时,导航被认为是成功的。
-
评估指标包括成功率(SR)和按路径长度加权的成功率(SPL)。
-
- 目标相机设置:
-
在“智能体匹配目标”设置中,目标相机的参数与智能体的以自身为中心的相机一致;在“用户匹配目标”设置中,目标相机的参数更接近人类用户的设置。
-
- 数据集:
-
使用Habitat模拟器和Gibson环境进行训练,并在MP3D和HM3D上进行测试,以评估模型的泛化能力。
-
- 实现细节:
-
使用PyTorch实现RSRNav,并在4×3090 GPUs上进行所有实验,训练智能体400M步。
-
导航策略网络设置为2层GRU,嵌入大小为128。使用ResNet9进行特征提取,相关性金字塔的层数设置为3。
-
与最先进方法的比较
-
在Gibson数据集上,RSRNav在“智能体匹配目标”设置中,SPL和SR指标均优于现有的最先进方法。例如,与ZER方法相比,RSRNav的SPL提高了3.2倍,SR提高了3倍。
-
在“用户匹配目标”设置中,RSRNav的SPL为56.6%,SR为83.2%,显著优于其他方法。
-
在跨域泛化方面,RSRNav在MP3D和HM3D数据集上也表现出色,无论是在“智能体匹配目标”还是“用户匹配目标”设置下,均取得了最佳性能。
-
这些结果表明,RSRNav在处理视角不一致和泛化到新场景方面具有更强的能力。
消融研究
-
三种相关性方法的比较:从“极简相关性”到“密集相关性”再到“方向感知相关性”,随着相关性信息的逐步丰富,导航性能也逐步提高。例如,在Gibson数据集上,“极简相关性”版本的SPL为16.1%,“密集相关性”版本的SPL为53.2%,而“方向感知相关性”版本的SPL进一步提高到61.2%。
-
密集相关性的分析:通过实验验证了交叉相关性和细粒度相关性对性能提升的贡献。两者结合可以最大化性能提升,表明丰富的相关性信息有助于提高导航性能。
-
方向感知相关性的分析:通过增加特征图的尺寸和相关性金字塔的层数,逐步提高了导航性能。这表明多尺度的方向相关性信息对于精确导航至关重要。
-
性能与模型大小的权衡:RSRNav在保持高性能的同时,具有最小的参数数量,这使得它在实际应用中具有更大的潜力。
更极端的“用户匹配目标”设置
-
为了更接近真实世界的应用场景,论文增加了一个更极端的目标相机设置,其中目标相机的高度、俯仰角和水平视场角的变化范围更大。
-
在这一设置下,RSRNav仍然表现出色,其SPL为22.8%,SR为40.2%,显著优于其他方法。
分析与可视化
- 分析:
-
RSRNav通过明确建模目标与当前观测之间的空间关系,减轻了策略网络的学习负担,使其能够更高效地学习导航动作。
-
此外,相关性信息有助于智能体在存在视角不一致的情况下准确调整姿态。
-
- 可视化:
-
通过在“用户匹配目标”设置下可视化导航路径,RSRNav能够更高效地探索新环境、接近目标并在到达时及时停止。
-
与其他方法相比,RSRNav的导航路径更直接,能够更精确地调整角度以对准目标。
-
结论与未来工作
- 结论:
-
RSRNav通过推理目标与当前观测之间的空间关系来指导导航,显著提高了图像目标导航的效率和鲁棒性。
-
该方法在多个基准数据集上取得了优异的性能,并在“用户匹配目标”设置下展现出强大的泛化能力。
-
然而,RSRNav的训练数据目前仅来自模拟器,与真实世界场景存在差距。
-
- 未来工作:
-
未来的工作将致力于将RSRNav应用于真实世界导航,通过在真实世界相关数据集上进行预训练来缩小这一差距。
-