当前位置: 首页 > news >正文

具身导航近期论文分享(一)

1.VLFly:基于开放词汇目标理解的无人机地面视觉语言导航
第一单位:南洋理工大学

发表年份:2025
论文链接:https://arxiv.org/pdf/2506.10756
内容简介:论文提出了一个专为无人机(UAV)设计的视觉语言导航框架VLFly,该系统无需外部定位系统或主动测距传感器,仅通过机载单目相机获取的自我视角图像,就能完成导航任务。
算法框架:
在这里插入图片描述
2.UniGoal:通用零样本目标导航
第一单位:清华大学
发表年份:2025
论文链接:https://arxiv.org/pdf/2503.10630
内容简介:论文通过统一的图结构表示与LLM推理,提出了一个通用的零样本目标导航框架(UniGoal),能够统一处理多种类型(物体导航、图像导航或文本导航)的导航任务。
算法框架:
在这里插入图片描述
3.TRAVEL:零样本视觉语言导航中的检索与对齐
第一单位:乔治梅森大学
发表年份:2025
论文链接:https://arxiv.org/pdf/2502.07306
内容简介:论文提出了基于模块化方法的VLN任务解决方案,在复杂的R2RHabitat指令数据集上,与使用联合语义地图的方法(如VLMaps)相比,展示了优越的性能,并详细量化了视觉定位对导航性能的影响。
算法框架:

在这里插入图片描述

4.REGNav:房间专家引导的图像目标导航
第一单位:西安交通大学
发表年份:2025
论文链接:https://arxiv.org/pdf/2502.10785
内容简介:论文提出了图像目标导航模型REGNav,通过模仿人类行为,为智能体赋予分析目标图像和观测图像是否在同一房间的能力,有效解决了智能体在不同房间时难以识别相似性和推断目标位置的问题。
算法框架:
在这里插入图片描述
5.VLN-R1:通过强化微调进行视觉语言导航
第一单位:香港大学
发表年份:2025
论文链接:https://arxiv.org/pdf/2506.17221
内容简介:论文利用大型视觉语言模型(LVLM)处理第一视角视频流,从而实现了连续环境中的视觉语言导航。与以往基于离散导航图的方法不同,VLN-R1能够生成连续的导航动作,更接近真实世界中的导航场景。
算法框架:
在这里插入图片描述
6.StreamVLN:基于慢快上下文建模的流式视觉语言导航
第一单位:上海人工智能实验室
发表年份:2025
论文链接:https://arxiv.org/pdf/2507.05240
内容简介:论文提出了基于慢快上下文建模的流式视觉语言导航框架StreamVLN,能够有效处理长视频流并生成低延迟的动作。而且通过滑动窗口KV缓存机制和基于体素的空间剪枝策略,实现了高效的上下文管理和内存优化。
算法框架:
在这里插入图片描述
7.ForesightNav:学习场景想象以实现高效探索
第一单位:苏黎世联邦理工学院
发表年份:2025
论文链接:https://arxiv.org/pdf/2506.10756
内容简介:论文提出了一种基于场景想象的探索策略,用于机器人在未知环境中高效导航。其核心是从“反应式探索”到“预见式规划”,基于局部几何语义地图,推理出全局场景,填补“未探索区域”。
算法框架:

在这里插入图片描述
8.WMNav:将视觉语言模型集成到对象目标导航的世界模型中
第一单位:中国科学院自动化研究所
发表年份:2025
论文链接:https://arxiv.org/pdf/2503.02247
内容简介:论文利用视觉语言模型(VLMs)创建了新的世界模型导航框架,以提升在复杂未知环境中进行目标导航的能力,并使用在线维护的好奇心图来预测环境状态的方法,以减少与环境的高风险交互。
算法框架:
在这里插入图片描述
9.CityNavAgent:基于层次语义规划和全局记忆的航空视觉和语言导航
第一单位:清华大学
发表年份:2025
论文链接:https://arxiv.org/pdf/2505.05622
内容简介:论文提出了用于城市空中视觉语言导航(VLN)的智能体CityNavAgent,它借助大模型(LLM)实现零样本导航,有效解决了复杂城市环境中无人机的导航问题。
算法框架:
在这里插入图片描述

10.VL-Nav:基于空间推理的实时视觉语言导航
第一单位:纽约州立大学布法罗分校
发表年份:2025
论文链接:https://arxiv.org/pdf/2502.00931

内容简介:论文提出了一种新颖的视觉语言导航(VL-Nav)系统,该系统在低功耗机器人上集成了高效的空间推理。
算法框架:
在这里插入图片描述

http://www.dtcms.com/a/343610.html

相关文章:

  • 华清远见25072班数据结构学习day1
  • 【时时三省】集成测试 简介
  • GIS在城乡供水一体化中的应用
  • c#语言的学习【02,函数重载】
  • Java数据类型全解析:从基础到进阶的完整指南
  • leetcode-python-349两个数组的交集
  • 快速了解图像形态学
  • Huggingface 的介绍,使用
  • 人体生理参数信号采集项目——心电信号
  • actuary notes[4]
  • git 冲突解决方案
  • 组件卸载时useEffect状态
  • 人工智能驱动的现代电商前端开发:从基础到智能体验
  • 网易测试岗位--面试真题分析
  • 利用 Java 爬虫获取淘宝商品评论实战指南
  • 大语言模型原理(Transformer架构)
  • 高可用操作步骤
  • FP4层与NF4层 4位量化总结(49)
  • 实践题:数据采集与处理培训大纲
  • JavaWeb(五)转发、重定向、Get、POST
  • 在JAVA中如何给Main方法传参?
  • java开发面试题(提高篇)
  • 2026 济南玉米及淀粉深加工展:从原料到创新产品的完整解决方案
  • 【算法精练】 哈夫曼编码
  • Eino 框架组件协作指南 - 以“智能图书馆建设手册”方式理解
  • Excel中运行VB的函数
  • Sklearn 机器学习 房价预估 线性回归模型实现预估
  • 【自用】JavaSE--网络通信
  • 项目架构分享 —— 离线数仓
  • 【neo4j】安装使用教程