ICRA-2025 | 阿德莱德机器人拓扑导航探索!TANGO:具有局部度量控制的拓扑目标可穿越性感知具身导航
- 作者:Stefan Podgorski1^{1}1, Sourav Garg1^{1}1, Mehdi Hosseinzadeh1^{1}1, Lachlan Mares1^{1}1, Feras Dayoub1^{1}1, Ian Reid1,2^{1,2}1,2
- 单位:1^{1}1澳大利亚阿德莱德大学机器学习研究所,2^{2}2阿联酋穆罕默德·本·扎耶德人工智能大学。
- 论文标题:TANGO: Traversability-Aware Navigation with Local Metric Control for Topological Goals
- 论文链接:https://podgorki.github.io/TANGO/data/TANGO_ICRA25.pdf
- 项目主页:https://podgorki.github.io/TANGO/
- 代码链接:https://github.com/podgorki/TANGO
主要贡献
- 提出了基于物体的拓扑-度量导航方法 ,实现了无需3D地图或预训练控制器的零样本(zero-shot)机器人导航。
- 独特地将 全局拓扑路径规划与局部度量轨迹规划相结合 ,使机器人能够朝着物体级别的目标前进,同时避开障碍物。
- 持续利用单目深度和可穿越性估计来预测局部轨迹,且当不可穿越区域不可见时,能通过自动切换机制回退到基线控制器。
- 该方法基于基础模型构建,如Fast Segment Anything、Depth Anything和CLIP,具有开放集(open-set)适用性,无需特定领域的微调。
- 在模拟环境和现实世界测试中均表现出色,优于现有的先进方法,并且展示了其鲁棒性和可部署性。
研究背景
- 机器人视觉导航是一个重要挑战,传统方法常常依赖于构建精确且全局一致的3D地图,这在计算上较为密集,且难以泛化到多样化环境中。
- 人类导航依赖于对之前观察到的图像或物体的推理,而无需详细的3D地图,受此启发,视觉拓扑导航作为一种替代方案出现。
- 以往的研究主要集中在基于图像的拓扑地图,但这种方式缺乏语义丰富性,且对视角变化敏感,限制了其在动态和多样化环境中的应用。
- 与之相比,基于物体的拓扑地图具有直接开放集自然语言查询、语义可解释性以及视角不变的视觉识别等优势,对于开放世界导航至关重要,然而如何将物体级别的拓扑信息整合到导航流程中是一个挑战,尤其是在确保障碍物避开和可穿越性的同时,将全局规划与局部运动控制相结合。
研究方法
拓扑对象基础的映射和规划
- 定义环境的拓扑地图为一个图 G=(N,δ∘)\mathcal{G}=(\mathcal{N},\delta^{\circ})G=(N,δ∘),其中节点对应图像片段,边可分为图像内边和图像间边,前者通过Delaunay三角剖分连接同一图像内片段的质心,后者则通过数据关联匹配不同图像中的对应片段。
- 映射:利用基础模型如SAM从图像序列中提取分割掩码,构建拓扑表示,且这些模型具备零样本能力,支持与更丰富的描述符和语言模型集成。
- 定位:在每次步骤中,机器人在以先前估计的本地化参考图像索引为中心的时间窗口内的地图图像中定位自身,通过提取SuperPoint特征和使用LightGlue进行匹配,得到段级对应关系,进而获得查询段的子目标成本。
- 全局规划:借助地图中片段之间的连通性,计算局部化参考地图段与目标段之间的路径长度,为源和目标节点分配边权重,通过Dijkstra算法计算从每个局部化查询段到目标节点的加权最短路径,为机器人的当前观测生成子目标成本掩码。
度量控制以到达物体子目标
- 鉴于全局规划器从拓扑角度规划的物体级别子目标,TANGO生成局部度量运动计划来导航至这些子目标,通过计算鸟瞰图(BEV)可穿越性图实现从拓扑子目标到度量子目标的转换。
- 度量BEV可穿越性:在每个时间步,使用SAM将机器人的RGB图像转换为二进制段掩码,利用CLIP对每个段进行可穿越性评估,去除如地板、地面或地毯等“语义”上的非可穿越段,形成二进制可穿越性掩码,然后通过单目深度估计将可穿越段和子目标点投影到3D空间,得到最终的度量BEV可穿越性图,选择远端投影点作为子目标点。
- 轨迹和运动规划:将度量BEV可穿越性图转换为成本图,通过Dijkstra算法确定到局部3D子目标的最短路径,生成一系列沿轨迹至子目标的可穿越航点,进而生成控制信号,以控制机器人的偏航角,并保持线性速度不变,从而有效导航至子目标。
- 自动切换控制:当度量可穿越性预测不可靠或不可用时(例如机器人靠近墙或被障碍物遮挡),局部控制器会自动切换到RoboHop的“段伺服”方法,基于子目标掩码的水平像素偏移计算偏航速度,确保机器人在这些复杂场景中仍能有效导航。
实验
数据集
- 使用 Habitat-Matterport 3D Dataset (HM3D) 的验证集进行评估。
- 该数据集包含 36 个独特的环境,每个环境采样 3 个episode,总共 108 个episode。
- 每个episode包含一个独特的物体目标,用于测试导航性能。
评估指标
- 平均成功率:如果机器人在 500 步内 且与目标位置的距离在 1 米以内,则认为导航成功。
- 测试不同轨迹长度下的性能,包括:
- 简单(Easy):1-3 米
- 困难(Hard):3-5 米
- 完整(Full):8-10 米
实验设置
- 使用模拟器的路径规划方法生成“teach”轨迹,用于构建对象级别的拓扑图。
- 所有方法在生成子目标成本时均使用相同的拓扑图。
基线方法
-
GT-Metric:
- 使用模拟器的语义实例掩码、深度和导航网格,提供准确的度量子目标成本。
- 这是理想的目标掩码输入,用于评估控制器的性能上限。
-
GT-Topological:
- 使用模拟器的语义实例掩码构建对象级别的拓扑图,仅依赖于对象之间的连通性。
- 该设置假设分割、匹配/关联和定位已经解决,用于评估规划和控制的性能。
-
RoboHop:
- 原始的零样本控制器,基于像素中心和路径长度加权。
- 使用全局规划器生成的子目标掩码进行导航。
-
PixNav:
- 基于像素的导航方法,使用目标像素块进行导航。
- 使用离散动作空间(如停止、前进、左转、右转等)进行导航。
结果
基准比较
- TANGO在所有设置下均优于基线方法,尤其是在“困难”和“完整”轨迹长度下,表现更为显著。
- 随着提供的地面真实信息减少(从GT-Metric到GT-Topological再到No-GT),所有方法的性能均有所下降,但TANGO的性能下降幅度较小,表明其在感知和规划方面的优势。
消融研究
控制与无GT的比较
- 比较使用模拟器的度量控制组件(深度和可穿越性)与预测方法的性能。
- 结果:
- 使用模拟器的度量控制组件时,TANGO的成功率为65.69%(困难轨迹)。
- 使用预测方法时,TANGO的成功率为43.14%(困难轨迹),性能下降了22.55%。
- 分析:这表明感知(分割和匹配)的准确性对导航性能的影响大于度量控制组件。
自动切换控制
- 在未知可穿越性的情况下,评估了自动切换到RoboHop控制器的效果。
- 结果:
- 无自动切换时,TANGO的成功率为62.14%(困难轨迹)。
- 启用自动切换时,TANGO的成功率提高到73.78%,提升了11.64%。
- 分析:自动切换机制在不可穿越性预测不可靠时,显著提高了导航的成功率。
到达“已见但未访问”的目标
- 实验设置:
- 评估TANGO在到达“已见但未访问”的目标物体方面的性能。
- 从每个episode的最后30%的映射运行中选择目标物体,这些目标物体在原始映射运行中未被访问过。
- 结果:
- 困难轨迹:TANGO的成功率为50.54%,而原始目标的成功率为43.14%。
- 完整轨迹:TANGO的成功率为25.84%,而原始目标的成功率为21.57%。
- 分析:
- TANGO在到达“已见但未访问”的目标物体方面的性能与到达原始目标的性能相当,这表明TANGO能够超越简单的“教与重复”范式,展示了基于物体的拓扑地图在导航中的优势。
定性分析
- 成功轨迹:
- TANGO在成功轨迹中展现了理想的行为,如正确转向、避开障碍物以及在物体间选择合适路径。
- 失败模式:
- 一个常见的失败模式是全局规划器生成的误导性目标段,导致机器人走非最优路径。
- 在某些情况下,错误的目标段会影响控制器的转向,导致导航失败,这凸显了高质量匹配的重要性。
结论与未来工作
- 结论:
- TANGO作为一种基于单RGB相机的拓扑视觉目标导航方法,通过将物体级别的拓扑全局规划与可穿越性感知的局部度量运动规划相结合,建立在“视觉基础模型”之上,表现出显著优于现有方法的性能,并展现出到达“已见但未访问”目标物体的有趣新能力,且在现实世界实验中展示了在地图发生显著变化下的障碍物避开能力。
- 尽管如此,该方法仍存在一些局限性,包括感知上的错误、规划中纯拓扑基础边的几何歧义以及基于文本和分割的可穿越性估计的错误,这些都可能导致导航失败。
- 未来工作:
- 可能会集中在开发更准确的分割和匹配方法,以及提高可穿越性估计的可靠性,以进一步提升系统的性能和鲁棒性。
- 此外,还可以探索如何将这种方法应用到更复杂的环境和更广泛的机器人平台上,以及如何与其他导航技术相结合,以实现更高效的机器人自主导航。