具身视觉语言导航算法学习笔记
对视觉探索、视觉导航(坐标导航、物品目标导航、实例图像导航、视觉语言导航)相关工作及代表论文的总结梳理
文章目录
- 具身导航任务分类
- 具身导航方案分类
- 视觉探索论文
- 2020 ICLR: Leaning to explore using active neural SLAM
- 视觉导航论文
- Point-goal Nav 坐标点导航
- 端到端学习
- 2019 ICLR DD-PPO
- Object-goal Nav 物品名称导航
- 2023 SciRob: Navigating to objects in the real world
- 模块化学习方案
- 2020 NIPS SemExp
- 2024 WACV MOPA
- 端到端方案
- 2023 OVRL-V2
- Instance-Image Nav 实例图像导航
- 零样本方案
- 2023 ICCV: Mod-IIN
- 2023 GOAT:go to anything
- VLN 根据自然语言指令导航
- 2024 TMLR:Vision-and-language navigation today and tomorrow: a survey in the era of foundation models
- 端到端方案
- 2022 CVPR DUET
- 2024 CVPR Lookahead exploration with neural radiance representation for continuous vision-language navigation(HNR)
- 零样本方案
- 2024 AAAI Nav-GPT
- 2024 MapGPT
- LLM+可学习
- 2024 ECCV NavGPT-2
具身导航任务分类
- 视觉探索:
使用尽可能少的步数,获取对环境信息的建模表示,例如拓扑图、语义地图、占据地图等
衡量指标:面积(绝对面积/百分比)、物品数量、下游导航任务成功率等 - 视觉导航
衡量指标:成功率(SR)、路径长度加权成功率(SPL)- 坐标导航:给定目标点坐标
- 目标导航:给定目标物品类别
- 实例图像导航:给定目标物品实例图像
- 视觉语言导航(VLN):遵从自然语言指令导航
具身导航方案分类
- 零样本方案:结合VLM理解+LLM推理+传统探索+传统建图 (2023 ICML ESC, 2024 GOAT)
- 模块化学习方案:AI学习模块化技能(探索、建图、规划)(2020 NIPS SemExp)
- 端到端学习方案:IL/RL端到端学习导航策略 (e.g. 2019 DD-PPO, 2023 OVRL-V2)
- 无记忆(不建立全局地图):
- 2020 ECCV ORG,从当前观测学习物品关系图,输出策略
- 2022 CVPR:Habitat-Web,CNN+RNN编码图像和语言,IL训练
- 有记忆(建立全局地图):
- 2020 NIPS MultiON, CNN编码地图和图像,用于长期目标规划
- 无记忆(不建立全局地图):
视觉探索论文
2020 ICLR: Leaning to explore using active neural SLAM
作者:CMU (chaplot)
模块化学习方案:基于神经网络的SLAM+学习策略+传统路径规划
- Global policy网络:输入SLAM位姿和地图,输出长期目标,并基于传统路径规划Fast marching method输出短期目标;
- Local policy 网络:输入图像、短期目标,RNN输出动作
视觉导航论文
Point-goal Nav 坐标点导航
端到端学习
2019 ICLR DD-PPO
相比解析路径规划方法FMM\BFS等,速度快,成本低
Object-goal Nav 物品名称导航
2023 SciRob: Navigating to objects in the real world
作者:CMU、Meta(Chaplot大佬,深耕具身导航各任务多年,获得很多届CVPR挑战赛冠军)
论文类型:一篇实证研究,探索现有具身导航方案在仿真和实际中的可行性
- 主要发现:模块化学习方法可以将Policy学到的技能抽象化,sim2real泛化性更好,在真实世界成功率90%,端到端只有23%;
- 最大挑战:图像差异、仿真与现实的失败模式差异
- 模块化学习方法的错误模式:
- 仿真:语义分割错误、重建错误
- 真实:深度误差(噪声、反光)
- 实证研究:
- 经典方法:frontier-based探索+2020 NIPS SemExp
- 模块化学习方法:2020 NIPS SemExp
- 端到端学习:2022 CVPR:Habitat-Web, IL+RL
- 最佳Sim2real途径:仿真+模块化+抽象化(从原始数据抽取任务所需信息,例如输入分割mask,采用BEV语义地图、拓扑图场景表示)
模块化学习方案
2020 NIPS SemExp
- 构建语义地图:posed rgbd语义分割投影+SLAM重建
- 全局策略:基于网络,RL学习
- 局部策略:基于FMM,实验发现与基于学习效果差不多
2024 WACV MOPA
训练一个PointNav agent,即可基于模块化的目标检测、语义地图、探索、规划完成多目标导航
端到端方案
2023 OVRL-V2
- 输入:RGB, 位姿、目标
- 输出:导航动作
- 预训练:MAE自监督预训练 ViT encoder
Instance-Image Nav 实例图像导航
零样本方案
2023 ICCV: Mod-IIN
模块化方案,探索、建图、实例reid(superglue)、目标检测、3D投影、规划
2023 GOAT:go to anything
探索、语义建图、目标检测、实例reid(superglue)、规划
支持语言目标、图像目标、物品目标
VLN 根据自然语言指令导航
2024 TMLR:Vision-and-language navigation today and tomorrow: a survey in the era of foundation models
- VLN主要模块:
- 世界模型:理解环境交互
- 人类模型:理解人类指令
- 智能体:理解语言和环境的时空对齐,推理、规划,实现遵照指令的导航
- 分类:
- 端到端模型
- 零样本基础模型
- 结合LLM的可学习
端到端方案
2022 CVPR DUET
是很多后续SOTA方法的基础,如 ScaleVLN, HNR, NavGPT-2
- 输入当前全景图,基于graph transformer构建拓扑图
- 根据语言指令和拓扑图,输入注意力网络,预测目标节点(粗粒度:全局特征,细粒度:每个节点的特征)
- 根据最短路径规划,得到下一步导航节点
2024 CVPR Lookahead exploration with neural radiance representation for continuous vision-language navigation(HNR)
可用于连续环境VLN,R2R-CE SOTA;基于未来预测和nerf
- 基于12个环视图像,基于预训练waypoint prediction模型输出备选导航点位置,并根据深度投影得到3D点云
- 对每个备选位置,搜索3D点云中的最近邻点,根据预训练nerf预测未来的12个视角图像和深度图
- 对未来视角图像,再运行waypoint pred得到未来的备选导航点
- Lookahead vln:将图的各个节点特征及指令输入类似DUET的图注意力网络,预测备选导航点得分,选择最优导航点
- 传统方法输出low-level action
零样本方案
2024 AAAI Nav-GPT
只考虑当前场景的描述和推理,规划下一个节点
- 目标检测:Faster RCNN, 图像描述:BLIP-2, 场景概括:gpt 3.5,推理规划:gpt-4
- 缺点:没有长期规划能力
2024 MapGPT
基于GPT-4o,输入观测、动作、地图拓扑图prompt,输出多步规划
LLM+可学习
2024 ECCV NavGPT-2
零样本LLM方案表现比端到端差40%;微调LLM会损失语言能力
- 方法:VLM部分可学习,并使用基于DUET的图网络输出动作