当前位置：首页 > news >正文

AAAI-2025 | 西交模拟人类空间推理策略的具身导航！REGNav：房间专家引导的图像目标导航

news 2025/7/13 7:02:02

提出了图像目标导航模型REGNav，通过模仿人类行为，为智能体赋予分析目标图像和观测图像是否在同一房间的能力，有效解决了智能体在不同房间时难以识别相似性和推断目标位置的问题。
设计了无监督学习方法，利用必须链接（must-link）和不能链接（cannot-link）约束对房间专家（Room Expert）进行预训练，使其能够从纯RGB图像中提取房间风格信息并预测空间关系，无需额外标注数据。
提出了两种不同的融合方法（隐式融合和显式融合），将房间关系知识高效地融入智能体的导航过程中，进一步提升了导航性能。
在三个流行的基准测试中，REGNav均超越了SOTA方法，证明了其在复杂环境中的有效性和优越性。

图像目标导航任务要求智能体在未知环境中，仅根据一个目标图像导航到指定位置，具有广泛的应用前景，如最后一公里配送、家用机器人和个人机器人等。然而，由于环境地图未知，智能体需要高效感知环境、比较当前观测与目标图像的相似性并找到关联，才能正确导航。
现有的方法主要通过学习导航策略来解决这一任务，但当智能体与目标图像位于不同房间时，由于空间结构复杂，目标图像与当前观测可能几乎没有重叠，导致智能体难以识别相似性和关联，从而无法有效推理目标位置，出现无效动作。
人类在执行类似任务时，会先大致比较当前观测与目标图像，判断是否在同一房间，再执行相应动作。受此启发，论文提出REGNav模型，使智能体具备类似的空间关系推理能力。

数据集收集：
- 从Gibson数据集的训练场景中收集图像，确保图像来自不同房间、不同角度，且包含不同场景或房屋的图像。
- 使用SAM（Segment Anything Model）对收集的图像进行对象掩码检测，去除空白图像，确保数据质量。
- 标注图像的场景身份、场景难度等信息，构建自收集数据集。
无监督学习方法：
- 约束规则：基于Gibson数据集的难度级别（易、中、难），定义四条规则来判断任意两张图像是否在同一房间：
  - 如果两张图像来自不同场景，则不在同一房间（不能链接）。
  - 如果两张图像在同一位置拍摄，则在同一房间（必须链接）。
  - 如果两张图像在同一场景且难度为“易”，则可能在同一房间。
  - 如果两张图像在同一场景且难度为“难”，则可能不在同一房间。
- 特征提取与距离矩阵精炼：使用预训练的ResNet-50作为房间风格编码器，提取图像特征向量，计算特征向量之间的距离矩阵，并通过上述规则对距离矩阵进行精炼。
- 聚类与伪标签生成：使用InfoMap聚类算法对精炼后的特征进行聚类，并为每个聚类分配伪标签。
- 损失函数：联合使用对比损失（cluster-level contrastive loss）和关系预测损失（cross-entropy loss）训练房间专家模型，优化房间风格编码器和房间关系网络。

视觉特征编码器：将观测图像和目标图像在通道维度上拼接，输入到视觉特征编码器中，提取视觉特征。
融合方法：
- 隐式融合：直接将房间风格嵌入与视觉特征融合，输入到导航策略中。
- 显式融合：先通过房间关系网络计算观测图像和目标图像之间的房间关系，再将房间关系与视觉特征融合，输入到导航策略中。
导航策略训练：在Habitat模拟器中训练导航策略，冻结预训练的房间专家模型，优化视觉特征编码器和导航策略。

在Habitat模拟器上进行实验，使用Gibson数据集训练智能体，并在Matterport 3D和HabitatMatterport 3D数据集上测试其跨域泛化能力。
评估指标包括成功率（SR）和按路径长度加权的成功率（SPL），后者平衡了效率和成功率。

在Gibson数据集上，与不使用外部记忆的SOTA方法相比，REGNav取得了67.1%的SPL和92.9%的SR，优于其他方法。与使用记忆的SOTA方法相比，REGNav在不同难度级别的测试集上也表现出色，例如在困难级别上，REGNav的SPL为59.4%，SR为87.1%，显著高于其他方法。
在跨域评估中，REGNav在Matterport 3D数据集上取得了50.2%的SPL和78.0%的SR，在HabitatMatterport 3D数据集上取得了44.0%的SPL和75.2%的SR，与之前的SOTA方法相比，具有更好的泛化能力。

结论：
- REGNav通过模仿人类的空间关系推理策略，利用预训练的房间专家模型，有效解决了智能体在图像目标导航任务中的无效动作问题，显著提升了导航性能，尤其是在复杂环境中。
未来工作：
- 未来工作可以进一步探索更高效的空间关系表示和推理方法，以及将该方法应用于其他类型的导航任务或更复杂的环境中。