当前位置: 首页 > news >正文

3D语义地图中的全局路径规划!iPPD:基于3D语义地图的指令引导路径规划视觉语言导航

  • 作者: Zehao Wang, Mingxiao Li, Minye Wu, Marie-Francine Moens, Tinne Tuytelaars

  • 单位:鲁汶大学电气工程系,鲁汶大学计算机科学系

  • 论文标题: Instruction-guided path planning with 3D semantic maps for vision-language navigation

  • 出版信息:Neurocomputing 625 (2025) 129457

  • 论文链接:https://www.sciencedirect.com/science/article/abs/pii/S0925231225001298?via%3Dihub

主要贡献

  • 引入高分辨率3D语义地图:提出使用高分辨率的3D语义地图作为环境表示,相比传统的2D地图或拓扑地图,能够保留更多环境信息,为导航提供更丰富的语义和空间上下文。

  • 提出模块化导航框架(iPPD):设计了一种模块化的导航方法,包含路径提议和路径评分两个阶段。通过指令约束的路径提议算法生成候选路径,并利用基于Transformer的评分模型选择最佳路径,有效利用全局信息,避免了局部决策的误差累积。

  • 创新的路径特征编码方案:提出了一种针对3D语义地图的路径特征编码方法,通过“对象罗盘”感知局部环境,并结合PointNet和Transformer模型对路径特征进行编码,增强了路径与语言指令的对齐能力。

  • 全局路径规划方法:这是首个基于3D语义地图的全局路径规划方法,通过预探索阶段构建的全局地图进行路径规划,显著提升了语言引导导航任务的性能,减少了训练需求,并展示了其在实际应用中的潜力。

背景知识

  • 视觉语言导航(VLN)的目标是让机器人能够理解人类自然语言指令,并在环境中成功导航以执行这些指令。这需要整合语言理解、视觉感知和决策能力。

  • 传统的 VLN 方法大多基于离散环境假设,即导航位置是预先定义好的,但在现实场景中,这种假设限制了机器人的灵活性和适应性。

  • 因此,研究者们开始探索连续环境中的 VLN 任务,以缩小与实际应用的差距。

研究方法

论文提出了一种名为 Instruction-aware Path Proposal and Discrimination (iPPD) 的新方法,该方法包含两个主要阶段:语义地图构建和基于语言的路径规划。

1. 语义地图构建

在预探索阶段,机器人在环境中随机行走,利用 RGBD(彩色图像和深度图像)传感器收集数据,并通过预训练的语义分割模型(Mask2Former)对每个时间步的观察结果进行语义分割。这些分割结果被投影到 3D 点云中,并结合相机姿态信息,动态更新到全局 3D 语义地图中。地图的分辨率设置为 0.1 米,并通过多视图一致性约束和最大池化操作来减少语义预测误差。

2. 基于语言的路径规划

路径规划阶段包含两个模块:路径提议和路径评分。

  • 路径提议:受经典粒子滤波算法启发,论文提出了一种基于指令约束的路径提议算法。该算法利用从指令中提取的稀疏动作-对象序列(如“向左转”、“观察沙发”)来引导粒子的运动。粒子在地图中模拟机器人运动,生成一系列候选路径。这些路径随后被编码并评分。

  • 路径评分:论文设计了一种基于 Transformer 的语言驱动判别器,用于评估候选路径并选择最佳路径作为最终结果。路径特征编码方案专门针对 3D 语义地图设计,能够将路径上的环境信息编码为特征表示。这些特征与语言指令对齐,以验证路径是否符合指令。

实验

实验使用了 VLN-CE 数据集,并在验证集上进行了评估。评估指标包括归一化动态时间弯曲(nDTW)、成功率(SR)、成功加权路径长度(SPL)等。

关键结论
  • 性能提升:iPPD 方法在验证集上的表现显著优于其他方法,尤其是在 nDTW 和 SR 指标上。例如,在验证集的 seen 环境中,iPPD 的 nDTW 为 0.66,SR 为 0.51,而在 unseen 环境中,nDTW 为 0.63,SR 为 0.42。

  • 地图质量的影响:通过对比使用构建的语义地图和使用真实语义地图的模型性能,论文发现构建的语义地图在性能上与真实地图相当,表明其包含的语义信息足以支持导航任务。

  • 路径提议策略的影响:论文还比较了不同的路径提议策略,包括随机行走、考虑障碍物的提议策略等。结果表明,论文提出的策略在召回率和路径形状相似性之间取得了较好的平衡。

讨论与未来工作

尽管 iPPD 方法在预探索环境中的 VLN 任务中表现出色,但仍有改进空间。论文指出,未来的研究方向包括:

  1. 提高语义地图的精度,例如包含实例级信息。

  2. 探索更先进的语言模型以增强指令理解能力。

  3. 研究更高效的路径规划算法,以减少对评分模型的依赖。

  4. 改进地图管理技术,以支持更大规模环境的导航。

相关文章:

  • BR_输出功率(RF/TRM/CA/BV-01-C [Output Power])
  • 从零开始实现 MobileViT 注意力机制——轻量级Transformer Vision Model 的新思路
  • PyTorch框架学习01
  • 低盐、低蛋白、低钾饮食的肾脏保护机制(肾和计算机语言)
  • 第七章:7.6 写一个函数,将两个字符串连接
  • ThinkPHP框架接入Stripe支付
  • 【贪心】C++ 活动安排问题
  • 三角形分类程序黑盒实验(三)(包含完整源码)
  • 深入解析C++中的队列(queue)容器:原理、应用与最佳实践
  • 16613/16614/16615系列噪声源
  • 线上创业协会小程序源码介绍
  • 52常用控件_QCheckBox的使用
  • Vue.js:现代前端开发的轻量级框架
  • 蓝桥杯 6. k倍区间
  • 来个去照片背景的GUI程序
  • git 根据http url设置账号密码
  • MySQL之text字段详细分类说明
  • 2025年C#人力外包趋势与价值分析
  • android studio 运行java main报错
  • 环状双向链表创建,删除,插入,遍历详细讲解
  • 购物网站网页设计模板/如何推广一款app
  • 安徽省工程招标信息网/seo网站优化推广教程
  • 网站建设500错误代码/热门关键词查询
  • 武汉手机网站设计如何/网站seo查询工具
  • 网站模板侵权问题/微平台推广
  • 湖南企业做网站/sem竞价推广托管