当前位置：首页 > news >正文

具身导航近期论文分享（一）

news 2025/8/22 16:27:08

1.VLFly：基于开放词汇目标理解的无人机地面视觉语言导航
第一单位：南洋理工大学
发表年份：2025
论文链接：https://arxiv.org/pdf/2506.10756
内容简介：论文提出了一个专为无人机（UAV）设计的视觉语言导航框架VLFly，该系统无需外部定位系统或主动测距传感器，仅通过机载单目相机获取的自我视角图像，就能完成导航任务。
算法框架：
在这里插入图片描述
2.UniGoal：通用零样本目标导航
第一单位：清华大学
发表年份：2025
论文链接：https://arxiv.org/pdf/2503.10630
内容简介：论文通过统一的图结构表示与LLM推理，提出了一个通用的零样本目标导航框架（UniGoal），能够统一处理多种类型(物体导航、图像导航或文本导航)的导航任务。
算法框架：
在这里插入图片描述
3.TRAVEL：零样本视觉语言导航中的检索与对齐
第一单位：乔治梅森大学
发表年份：2025
论文链接：https://arxiv.org/pdf/2502.07306
内容简介：论文提出了基于模块化方法的VLN任务解决方案，在复杂的R2RHabitat指令数据集上，与使用联合语义地图的方法（如VLMaps）相比，展示了优越的性能，并详细量化了视觉定位对导航性能的影响。
算法框架：

在这里插入图片描述

4.REGNav：房间专家引导的图像目标导航
第一单位：西安交通大学
发表年份：2025
论文链接：https://arxiv.org/pdf/2502.10785
内容简介：论文提出了图像目标导航模型REGNav，通过模仿人类行为，为智能体赋予分析目标图像和观测图像是否在同一房间的能力，有效解决了智能体在不同房间时难以识别相似性和推断目标位置的问题。
算法框架：
在这里插入图片描述
5.VLN-R1：通过强化微调进行视觉语言导航
第一单位：香港大学
发表年份：2025
论文链接：https://arxiv.org/pdf/2506.17221
内容简介：论文利用大型视觉语言模型（LVLM）处理第一视角视频流，从而实现了连续环境中的视觉语言导航。与以往基于离散导航图的方法不同，VLN-R1能够生成连续的导航动作，更接近真实世界中的导航场景。
算法框架：
在这里插入图片描述
6.StreamVLN：基于慢快上下文建模的流式视觉语言导航
第一单位：上海人工智能实验室
发表年份：2025
论文链接：https://arxiv.org/pdf/2507.05240
内容简介：论文提出了基于慢快上下文建模的流式视觉语言导航框架StreamVLN，能够有效处理长视频流并生成低延迟的动作。而且通过滑动窗口KV缓存机制和基于体素的空间剪枝策略，实现了高效的上下文管理和内存优化。
算法框架：
在这里插入图片描述
7.ForesightNav：学习场景想象以实现高效探索
第一单位：苏黎世联邦理工学院
发表年份：2025
论文链接：https://arxiv.org/pdf/2506.10756
内容简介：论文提出了一种基于场景想象的探索策略，用于机器人在未知环境中高效导航。其核心是从“反应式探索”到“预见式规划”，基于局部几何语义地图，推理出全局场景，填补“未探索区域”。
算法框架：

在这里插入图片描述
8.WMNav：将视觉语言模型集成到对象目标导航的世界模型中
第一单位：中国科学院自动化研究所
发表年份：2025
论文链接：https://arxiv.org/pdf/2503.02247
内容简介：论文利用视觉语言模型（VLMs）创建了新的世界模型导航框架，以提升在复杂未知环境中进行目标导航的能力，并使用在线维护的好奇心图来预测环境状态的方法，以减少与环境的高风险交互。
算法框架：
在这里插入图片描述
9.CityNavAgent：基于层次语义规划和全局记忆的航空视觉和语言导航
第一单位：清华大学
发表年份：2025
论文链接：https://arxiv.org/pdf/2505.05622
内容简介：论文提出了用于城市空中视觉语言导航（VLN）的智能体CityNavAgent，它借助大模型（LLM）实现零样本导航，有效解决了复杂城市环境中无人机的导航问题。
算法框架：
在这里插入图片描述