当前位置: 首页 > news >正文

具身视觉语言导航算法学习笔记

对视觉探索、视觉导航(坐标导航、物品目标导航、实例图像导航、视觉语言导航)相关工作及代表论文的总结梳理

文章目录

    • 具身导航任务分类
    • 具身导航方案分类
    • 视觉探索论文
        • 2020 ICLR: Leaning to explore using active neural SLAM
    • 视觉导航论文
      • Point-goal Nav 坐标点导航
        • 端到端学习
          • 2019 ICLR DD-PPO
      • Object-goal Nav 物品名称导航
        • 2023 SciRob: Navigating to objects in the real world
        • 模块化学习方案
          • 2020 NIPS SemExp
          • 2024 WACV MOPA
        • 端到端方案
          • 2023 OVRL-V2
      • Instance-Image Nav 实例图像导航
        • 零样本方案
          • 2023 ICCV: Mod-IIN
          • 2023 GOAT:go to anything
      • VLN 根据自然语言指令导航
        • 2024 TMLR:Vision-and-language navigation today and tomorrow: a survey in the era of foundation models
        • 端到端方案
          • 2022 CVPR DUET
          • 2024 CVPR Lookahead exploration with neural radiance representation for continuous vision-language navigation(HNR)
        • 零样本方案
          • 2024 AAAI Nav-GPT
          • 2024 MapGPT
        • LLM+可学习
          • 2024 ECCV NavGPT-2

具身导航任务分类

  1. 视觉探索:
    使用尽可能少的步数,获取对环境信息的建模表示,例如拓扑图、语义地图、占据地图等
    衡量指标:面积(绝对面积/百分比)、物品数量、下游导航任务成功率等
  2. 视觉导航
    衡量指标:成功率(SR)、路径长度加权成功率(SPL)
    • 坐标导航:给定目标点坐标
    • 目标导航:给定目标物品类别
    • 实例图像导航:给定目标物品实例图像
    • 视觉语言导航(VLN):遵从自然语言指令导航

具身导航方案分类

  • 零样本方案:结合VLM理解+LLM推理+传统探索+传统建图 (2023 ICML ESC, 2024 GOAT)
  • 模块化学习方案:AI学习模块化技能(探索、建图、规划)(2020 NIPS SemExp)
  • 端到端学习方案:IL/RL端到端学习导航策略 (e.g. 2019 DD-PPO, 2023 OVRL-V2)
    • 无记忆(不建立全局地图):
      • 2020 ECCV ORG,从当前观测学习物品关系图,输出策略
      • 2022 CVPR:Habitat-Web,CNN+RNN编码图像和语言,IL训练
    • 有记忆(建立全局地图):
      • 2020 NIPS MultiON, CNN编码地图和图像,用于长期目标规划

视觉探索论文

2020 ICLR: Leaning to explore using active neural SLAM

作者:CMU (chaplot)
模块化学习方案:基于神经网络的SLAM+学习策略+传统路径规划

  • Global policy网络:输入SLAM位姿和地图,输出长期目标,并基于传统路径规划Fast marching method输出短期目标;
  • Local policy 网络:输入图像、短期目标,RNN输出动作

视觉导航论文

Point-goal Nav 坐标点导航

端到端学习
2019 ICLR DD-PPO

相比解析路径规划方法FMM\BFS等,速度快,成本低

Object-goal Nav 物品名称导航

2023 SciRob: Navigating to objects in the real world

作者:CMU、Meta(Chaplot大佬,深耕具身导航各任务多年,获得很多届CVPR挑战赛冠军)
论文类型:一篇实证研究,探索现有具身导航方案在仿真和实际中的可行性

  • 主要发现:模块化学习方法可以将Policy学到的技能抽象化,sim2real泛化性更好,在真实世界成功率90%,端到端只有23%;
  • 最大挑战:图像差异、仿真与现实的失败模式差异
  • 模块化学习方法的错误模式:
    • 仿真:语义分割错误、重建错误
    • 真实:深度误差(噪声、反光)
  • 实证研究:
    • 经典方法:frontier-based探索+2020 NIPS SemExp
    • 模块化学习方法:2020 NIPS SemExp
    • 端到端学习:2022 CVPR:Habitat-Web, IL+RL
  • 最佳Sim2real途径:仿真+模块化+抽象化(从原始数据抽取任务所需信息,例如输入分割mask,采用BEV语义地图、拓扑图场景表示)
模块化学习方案
2020 NIPS SemExp
  • 构建语义地图:posed rgbd语义分割投影+SLAM重建
  • 全局策略:基于网络,RL学习
  • 局部策略:基于FMM,实验发现与基于学习效果差不多
2024 WACV MOPA

训练一个PointNav agent,即可基于模块化的目标检测、语义地图、探索、规划完成多目标导航

端到端方案
2023 OVRL-V2
  • 输入:RGB, 位姿、目标
  • 输出:导航动作
  • 预训练:MAE自监督预训练 ViT encoder

Instance-Image Nav 实例图像导航

零样本方案
2023 ICCV: Mod-IIN

模块化方案,探索、建图、实例reid(superglue)、目标检测、3D投影、规划

2023 GOAT:go to anything

探索、语义建图、目标检测、实例reid(superglue)、规划
支持语言目标、图像目标、物品目标

VLN 根据自然语言指令导航

2024 TMLR:Vision-and-language navigation today and tomorrow: a survey in the era of foundation models
  • VLN主要模块:
    • 世界模型:理解环境交互
    • 人类模型:理解人类指令
    • 智能体:理解语言和环境的时空对齐,推理、规划,实现遵照指令的导航
  • 分类:
    • 端到端模型
    • 零样本基础模型
    • 结合LLM的可学习
端到端方案
2022 CVPR DUET

是很多后续SOTA方法的基础,如 ScaleVLN, HNR, NavGPT-2

  1. 输入当前全景图,基于graph transformer构建拓扑图
  2. 根据语言指令和拓扑图,输入注意力网络,预测目标节点(粗粒度:全局特征,细粒度:每个节点的特征)
  3. 根据最短路径规划,得到下一步导航节点
2024 CVPR Lookahead exploration with neural radiance representation for continuous vision-language navigation(HNR)

可用于连续环境VLN,R2R-CE SOTA;基于未来预测和nerf

  1. 基于12个环视图像,基于预训练waypoint prediction模型输出备选导航点位置,并根据深度投影得到3D点云
  2. 对每个备选位置,搜索3D点云中的最近邻点,根据预训练nerf预测未来的12个视角图像和深度图
  3. 对未来视角图像,再运行waypoint pred得到未来的备选导航点
  4. Lookahead vln:将图的各个节点特征及指令输入类似DUET的图注意力网络,预测备选导航点得分,选择最优导航点
  5. 传统方法输出low-level action
零样本方案
2024 AAAI Nav-GPT

只考虑当前场景的描述和推理,规划下一个节点

  • 目标检测:Faster RCNN, 图像描述:BLIP-2, 场景概括:gpt 3.5,推理规划:gpt-4
  • 缺点:没有长期规划能力
2024 MapGPT

基于GPT-4o,输入观测、动作、地图拓扑图prompt,输出多步规划

LLM+可学习
2024 ECCV NavGPT-2

零样本LLM方案表现比端到端差40%;微调LLM会损失语言能力

  • 方法:VLM部分可学习,并使用基于DUET的图网络输出动作
http://www.dtcms.com/a/300085.html

相关文章:

  • C++20 协程
  • 【硬件-笔试面试题】硬件/电子工程师,笔试面试题-27,(知识点:信号完整性,信号反射,串扰,时延,抖动,衰减)
  • 物联网统一网关:多协议转换与数据处理架构设计
  • useCallback/useMemo
  • Item11:在operator=中处理自我赋值
  • [极客大挑战 2019]FinalSQL--布尔盲注
  • 【web应用】如何进行前后端调试Debug? + 前端JavaScript调试Debug?
  • 内置两大模型,Whisper视频语音转文字,支持批量处理,完全免费!
  • 车载诊断刷写 --- Flash关于擦除和写入大小
  • GStreamer中Element(元素)
  • sendfile系统调用及示例
  • Android 键盘
  • C# 位运算及应用
  • vulhub-earth靶机攻略
  • Day32| 509. 斐波那契数、70. 爬楼梯、746. 使用最小花费爬楼梯
  • 【硬件-笔试面试题】硬件/电子工程师,笔试面试题-31,(知识点:芯片容量,行地址,列地址,Bank地址,数据位宽,数据带宽)
  • SpringMVC——请求
  • 2025年全国青少年信息素养大赛Scratch算法创意实践挑战赛 小低组 初赛 真题
  • 深分页性能问题分析与优化实践
  • matplotlib库 点线图,直方图,多子图与三维空间的可视化
  • C++11语法
  • 计算机中的数据表示
  • C++ TAP(基于任务的异步编程模式)
  • 停止所有docker容器的命令
  • 【SSM】第二章 网上蛋糕项目商城-首页
  • 进程线程协程深度对比分析
  • 2025年渗透测试面试题总结-2025年HW(护网面试) 71(题目+回答)
  • HarmonyOS应用上架流程详解
  • element-plus安装以及使用
  • STM32概况