当前位置: 首页 > news >正文

IROS-2025 | OIKG:基于观察-图交互与关键细节引导的视觉语言导航

近日,博维资讯有限公司创新研发部广东省智能科学与技术研究院脑机元宇宙数字融合联合实验室团队的研究成果“Observation-Graph Interaction and Key-Detail Guidance for Vision and Language Navigation”被机器人领域顶级国际会议IROS 2025(IEEE/RSJ International Conference on Intelligent Robots and Systems)录用,清华大学谢奕凡为文章第一作者,博维资讯有限公司欧彬凯为文章第二作者,广东省智能科学与技术研究院刘耀华为文章通讯作者。

我们经常在科幻电影里看到这样的情景,电影主人公对着家里的机器人说:“去厨房,看看冰箱里还有没有牛奶。” 机器人不仅准确走到了厨房,还在移动过程中避开了椅子,转身打开冰箱,并回答你:“还有半瓶。”现在这不是遥远的科幻,而是具身智能的下一站——视觉语言导航技术。

图1 OIKG的总体架构图

图1 OIKG的总体架构图

相比于传统的机器人导航技术,视觉语言导航要求智能体能够根据自然语言指令在全新且未知的环境中完成自主导航任务,这种具身导航方法不仅为更自然、更高效的人机交互铺平道路,也是实现通用人工智能的有效途径之一。然而,现有的视觉语言导航方法往往难以在导航过程中有效融合视觉观察与指令细节,导致路径规划欠佳且成功率有限。因此,我们提出了一种OIKG(观察图交互与关键细节引导)创新框架,通过两大核心组件解决上述问题:

  1. 观察图交互模块(Observation-graph Interaction Module):该模块通过几何嵌入将角度和视觉信息解耦,并加强导航空间中边的表示。具体来说,模块首先将观察特征分解为角度嵌入和视觉嵌入,然后通过三角公式计算相对角度差异,并将其与原始角度信息结合,生成最终的位置嵌入。这些位置嵌入与原始角度信息结合,更新候选节点的特征,从而生成更新后的图。

  2. 关键细节引导模块(Key-detail Guidance Module):该模块动态提取指令中的细粒度位置和对象信息,以实现更精确的视觉与语言对齐。模块使用大型语言模型(LLM)对R2R和RxR数据集的文本进行分类,总结出位置细节和对象细节两个词库。然后,模块根据这些词库从指令中提取相应的特征,并将它们融合以生成关键细节特征。通过交叉注意力机制和线性投影层,模块增强了智能体对导航线索和环境细节的理解。

实验部分在R2RRxR数据集上进行,使用了多种评估指标,包括轨迹长度(TL)、导航误差(NE)、成功率(SR)和路径长度加权成功率(SPL)等。

实验证明,OIKG框架通过观察图交互和关键细节引导,显著提高了智能体在VLN任务中的导航能力。观察图交互模块通过解耦角度和视觉信息,减少了特征表示的干扰,并通过几何嵌入增强了边的表示。关键细节引导模块则通过动态提取指令中的细粒度信息,实现了更精确的视觉与语言对齐。结果表明,OIKG在多个数据集和评估指标上均优于现有方法,证明了其在提高导航精度和成功率方面的有效性。

http://www.dtcms.com/a/296189.html

相关文章:

  • 疯狂星期四第17天运营日记
  • 手写DQN (FrozenLake环境)
  • 飞牛系统安装DataEase自定义Docker包
  • 医疗行业新变革:AR 培训系统助力手术培训精准高效​
  • 大模型回复数据标注优化方案
  • STM32-FSMC
  • 利用Web3加密技术保障您的在线数据安全
  • Java学习----原型模式
  • 草稿未完成!Linux网络系统【文件传输】【I/O 多路复用】
  • docker安装 Elasticsearch、Kibana、IK 分词器
  • 基于SpringBoot+Vue的电脑维修管理系统(WebSocket实时聊天、Echarts图形化分析)
  • 二分查找----5.寻找旋转排序数组中的最小值
  • 【从0开始学习Java | 第3篇】阶段综合练习 - 五子棋制作
  • 「OC」源码学习——属性关键字
  • 基于深度学习的胸部 X 光图像肺炎分类系统(一)
  • STL学习(?map容器)
  • C++性能优化实战‘从毫秒到微秒的底层突围‘
  • C++ 性能优化
  • WPF 控制动画开关
  • 一键修复ipynb,Jupyter Notebook损坏文件
  • redis前期工作:环境搭建-在ubuntu安装redis
  • 基于xxl-job的分片实现分库分表后的扫表
  • Qt WebEngine Widgets的使用
  • MCNN-BiLSTM-Attention分类预测模型等!
  • ChemDraw23软件下载及安装教程|附带软件下载文件|ChemDraw20-23pro版本
  • <<P4116 Qtree3>>
  • 胡良兵Nature Chem Eng:孔隙门控焦耳热精准升级聚乙烯为航油前驱物
  • 中央广播电视总台联合阿里云研究院权威发布《中国人工智能应用发展报告(2025)》:我国依旧需要大力注重人工智能人才的培养
  • Coze工作流-更多图像插件
  • 数据集成难在哪?制造企业该怎么做?