当前位置：首页 > news >正文

具身视觉语言导航算法学习笔记

news 2025/7/27 11:18:54

对视觉探索、视觉导航（坐标导航、物品目标导航、实例图像导航、视觉语言导航）相关工作及代表论文的总结梳理

文章目录

- 具身导航任务分类
- 具身导航方案分类
- 视觉探索论文
- - - 2020 ICLR: Leaning to explore using active neural SLAM
- 视觉导航论文
- - Point-goal Nav 坐标点导航
  - - 端到端学习
    - - 2019 ICLR DD-PPO
  - Object-goal Nav 物品名称导航
  - - 2023 SciRob: Navigating to objects in the real world
    - 模块化学习方案
    - - 2020 NIPS SemExp
      - 2024 WACV MOPA
    - 端到端方案
    - - 2023 OVRL-V2
  - Instance-Image Nav 实例图像导航
  - - 零样本方案
    - - 2023 ICCV: Mod-IIN
      - 2023 GOAT：go to anything
  - VLN 根据自然语言指令导航
  - - 2024 TMLR：Vision-and-language navigation today and tomorrow: a survey in the era of foundation models
    - 端到端方案
    - - 2022 CVPR DUET
      - 2024 CVPR Lookahead exploration with neural radiance representation for continuous vision-language navigation（HNR）
    - 零样本方案
    - - 2024 AAAI Nav-GPT
      - 2024 MapGPT
    - LLM+可学习
    - - 2024 ECCV NavGPT-2

具身导航任务分类

视觉探索：
使用尽可能少的步数，获取对环境信息的建模表示，例如拓扑图、语义地图、占据地图等
衡量指标：面积（绝对面积/百分比）、物品数量、下游导航任务成功率等
视觉导航
衡量指标：成功率（SR）、路径长度加权成功率（SPL）
- 坐标导航：给定目标点坐标
- 目标导航：给定目标物品类别
- 实例图像导航：给定目标物品实例图像
- 视觉语言导航（VLN）：遵从自然语言指令导航

具身导航方案分类

零样本方案：结合VLM理解+LLM推理+传统探索+传统建图 (2023 ICML ESC, 2024 GOAT)
模块化学习方案：AI学习模块化技能（探索、建图、规划）（2020 NIPS SemExp）
端到端学习方案：IL/RL端到端学习导航策略（e.g. 2019 DD-PPO, 2023 OVRL-V2）
- 无记忆（不建立全局地图）：
  - 2020 ECCV ORG，从当前观测学习物品关系图，输出策略
  - 2022 CVPR：Habitat-Web，CNN+RNN编码图像和语言，IL训练
- 有记忆（建立全局地图）：
  - 2020 NIPS MultiON, CNN编码地图和图像，用于长期目标规划

视觉探索论文

2020 ICLR: Leaning to explore using active neural SLAM

作者：CMU (chaplot)
模块化学习方案：基于神经网络的SLAM+学习策略+传统路径规划

Global policy网络：输入SLAM位姿和地图，输出长期目标，并基于传统路径规划Fast marching method输出短期目标；
Local policy 网络：输入图像、短期目标，RNN输出动作

视觉导航论文

Point-goal Nav 坐标点导航

端到端学习

2019 ICLR DD-PPO

相比解析路径规划方法FMM\BFS等，速度快，成本低

Object-goal Nav 物品名称导航

2023 SciRob: Navigating to objects in the real world

作者：CMU、Meta（Chaplot大佬，深耕具身导航各任务多年，获得很多届CVPR挑战赛冠军）
论文类型：一篇实证研究，探索现有具身导航方案在仿真和实际中的可行性

主要发现：模块化学习方法可以将Policy学到的技能抽象化，sim2real泛化性更好，在真实世界成功率90%，端到端只有23%；
最大挑战：图像差异、仿真与现实的失败模式差异
模块化学习方法的错误模式：
- 仿真：语义分割错误、重建错误
- 真实：深度误差（噪声、反光）
实证研究：
- 经典方法：frontier-based探索+2020 NIPS SemExp
- 模块化学习方法：2020 NIPS SemExp
- 端到端学习：2022 CVPR：Habitat-Web, IL+RL
最佳Sim2real途径：仿真+模块化+抽象化（从原始数据抽取任务所需信息，例如输入分割mask，采用BEV语义地图、拓扑图场景表示）

模块化学习方案

2020 NIPS SemExp

构建语义地图：posed rgbd语义分割投影+SLAM重建
全局策略：基于网络，RL学习
局部策略：基于FMM，实验发现与基于学习效果差不多

2024 WACV MOPA

训练一个PointNav agent，即可基于模块化的目标检测、语义地图、探索、规划完成多目标导航

端到端方案

2023 OVRL-V2

输入：RGB, 位姿、目标
输出：导航动作
预训练：MAE自监督预训练 ViT encoder

Instance-Image Nav 实例图像导航

零样本方案

2023 ICCV: Mod-IIN

模块化方案，探索、建图、实例reid（superglue）、目标检测、3D投影、规划

2023 GOAT：go to anything

探索、语义建图、目标检测、实例reid（superglue）、规划
支持语言目标、图像目标、物品目标

VLN 根据自然语言指令导航

2024 TMLR：Vision-and-language navigation today and tomorrow: a survey in the era of foundation models

VLN主要模块：
- 世界模型：理解环境交互
- 人类模型：理解人类指令
- 智能体：理解语言和环境的时空对齐，推理、规划，实现遵照指令的导航
分类：
- 端到端模型
- 零样本基础模型
- 结合LLM的可学习

端到端方案

2022 CVPR DUET

是很多后续SOTA方法的基础，如 ScaleVLN, HNR, NavGPT-2

输入当前全景图，基于graph transformer构建拓扑图
根据语言指令和拓扑图，输入注意力网络，预测目标节点（粗粒度：全局特征，细粒度：每个节点的特征）
根据最短路径规划，得到下一步导航节点

2024 CVPR Lookahead exploration with neural radiance representation for continuous vision-language navigation（HNR）

可用于连续环境VLN，R2R-CE SOTA；基于未来预测和nerf

基于12个环视图像，基于预训练waypoint prediction模型输出备选导航点位置，并根据深度投影得到3D点云
对每个备选位置，搜索3D点云中的最近邻点，根据预训练nerf预测未来的12个视角图像和深度图
对未来视角图像，再运行waypoint pred得到未来的备选导航点
Lookahead vln：将图的各个节点特征及指令输入类似DUET的图注意力网络，预测备选导航点得分，选择最优导航点
传统方法输出low-level action

零样本方案

2024 AAAI Nav-GPT

只考虑当前场景的描述和推理，规划下一个节点

目标检测：Faster RCNN, 图像描述：BLIP-2, 场景概括：gpt 3.5，推理规划：gpt-4
缺点：没有长期规划能力

2024 MapGPT

基于GPT-4o，输入观测、动作、地图拓扑图prompt，输出多步规划

LLM+可学习

2024 ECCV NavGPT-2

零样本LLM方案表现比端到端差40%；微调LLM会损失语言能力

方法：VLM部分可学习，并使用基于DUET的图网络输出动作

查看全文

http://www.dtcms.com/a/300085.html

C++20 协程

【硬件-笔试面试题】硬件/电子工程师，笔试面试题-27，（知识点：信号完整性，信号反射，串扰，时延，抖动，衰减）

物联网统一网关：多协议转换与数据处理架构设计

useCallback/useMemo

Item11：在operator=中处理自我赋值

[极客大挑战 2019]FinalSQL--布尔盲注

【web应用】如何进行前后端调试Debug? + 前端JavaScript调试Debug?

内置两大模型，Whisper视频语音转文字，支持批量处理，完全免费！

车载诊断刷写 --- Flash关于擦除和写入大小

GStreamer中Element（元素）

sendfile系统调用及示例

Android 键盘

C# 位运算及应用

vulhub-earth靶机攻略

Day32| 509. 斐波那契数、70. 爬楼梯、746. 使用最小花费爬楼梯

【硬件-笔试面试题】硬件/电子工程师，笔试面试题-31，（知识点：芯片容量，行地址，列地址，Bank地址，数据位宽，数据带宽）

SpringMVC——请求

2025年全国青少年信息素养大赛Scratch算法创意实践挑战赛小低组初赛真题

深分页性能问题分析与优化实践

matplotlib库点线图，直方图，多子图与三维空间的可视化

C++11语法

计算机中的数据表示

C++ TAP（基于任务的异步编程模式）

停止所有docker容器的命令

【SSM】第二章网上蛋糕项目商城-首页

进程线程协程深度对比分析

2025年渗透测试面试题总结-2025年HW(护网面试) 71（题目+回答）

HarmonyOS应用上架流程详解

element-plus安装以及使用

STM32概况

文章目录

具身导航任务分类

具身导航方案分类

视觉探索论文

2020 ICLR: Leaning to explore using active neural SLAM

视觉导航论文

Point-goal Nav 坐标点导航

端到端学习

2019 ICLR DD-PPO

Object-goal Nav 物品名称导航

2023 SciRob: Navigating to objects in the real world

模块化学习方案

2020 NIPS SemExp

2024 WACV MOPA

端到端方案

2023 OVRL-V2

Instance-Image Nav 实例图像导航

零样本方案

2023 ICCV: Mod-IIN

2023 GOAT：go to anything

VLN 根据自然语言指令导航

2024 TMLR：Vision-and-language navigation today and tomorrow: a survey in the era of foundation models

端到端方案

2022 CVPR DUET

2024 CVPR Lookahead exploration with neural radiance representation for continuous vision-language navigation（HNR）

零样本方案

2024 AAAI Nav-GPT

2024 MapGPT

LLM+可学习

2024 ECCV NavGPT-2

相关文章：