当前位置: 首页 > news >正文

北航自由指令驱动的多模态导航最新研究:OctoNav:开启通用智能体具身导航

  • 作者: Chen Gao, Liankai Jin, Xingyu Peng, Jiazhao Zhang, Yue Deng, Annan Li, He Wang, Si Liu

  • 单位:北京航空航天大学,新加坡国立大学,北京大学,北京中关村学院

  • 论文标题:OctoNav: Towards Generalist Embodied Navigation

  • 论文链接:https://arxiv.org/pdf/2506.09839

  • 项目主页:https://buaa-colalab.github.io/OctoNav/

  • 代码链接:https://github.com/buaa-colalab/OctoNav-R1

主要贡献

  • 提出了一个大规模基准测试平台 OctoNav-Bench 和一种基于视觉语言动作(VLA)的方法 OctoNav-R1,旨在构建能够遵循自由形式指令的通用导航智能体(generalist navigation agents)。

  • OctoNav-Bench 包含 400 多个 3D 场景和 45k+ 指令-轨迹对,支持大规模训练。这些指令是自由形式的,融合了多种模态(视觉、文本、坐标)和多种能力(如 ObjNav、PointNav、ImgNav 等),并构建了一个包含 10k+ 指令-思考-动作对的 Think-Before-Action Chain-of-Thought(TBA-CoT)数据集,用于捕捉行动背后的思考过程。

  • OctoNav-R1 基于 MLLMs 构建,能够直接从 2D 视觉观测生成低级动作,并通过提出的混合训练范式(Hybrid Training Paradigm, HTP)进行训练,该范式包括三个阶段:Action/TBA-SFT、Nav-GPRO 和在线强化学习(Online RL)。该方法强调“思考后再行动”,通过 TBA-CoT 数据集训练模型,使其具备生成思考过程和行动序列的能力。

  • 模拟环境中展示了 OctoNav-R1 的优越性能,并在真实世界中进行了初步的 sim2real 泛化实验,验证了其在现实场景中的适用性。

研究背景

  • 传统的导航研究被划分为不同的任务,如目标导航(ObjNav)、点导航(PointNav)、图像导航(ImgNav)、实例图像导航(Ins-ImgNav)和视觉语言导航(VLN)。这些任务在设置、输入模态和目标上存在差异,导致数据集和方法都是针对特定任务设计的。

  • 然而,理想中的通用智能体应该能够遵循自由形式的指令,这些指令不仅包含单一任务指令,还可能融合多种模态和多种能力。例如,指令可能要求智能体先导航到某个位置(PointNav),然后找到某个物体(ObjNav),最后通过视觉匹配找到特定场景(ImgNav)。当前的研究方法在处理这种复杂指令时存在局限性。

相关工作

  • 大型语言模型(LLMs)在导航中的应用:近年来,LLMs 和多模态语言模型(MLLMs)被引入导航领域,用于生成导航策略或直接预测低级动作。然而,这些方法大多针对单一任务或特定模态,无法处理自由形式的多模态、多能力指令。

  • 强化学习(RL)在导航中的应用:强化学习被证明是提高模型推理能力的有力策略。例如,DeepSeek-R1 通过奖励机制引导 LLMs 进行推理,而 Vision-R1 和 Video-R1 则构建了多模态的 CoT 数据集。然而,这些研究主要集中在静态图像或受限任务上,尚未探索如何将类似方法应用于机器人导航场景。

OctoNav-Bench

大规模标注

  • OctoNav-Bench 包含 400 多个 3D 场景,涵盖 MP3D、HM3D、Gibson 和 ProcTHOR 等常用数据集。

  • 通过自动化标注流程,生成了 45k+ 指令-轨迹对,支持大规模训练。

自由形式、多模态和多能力指令

指令以自由形式生成,融合了文本、视觉(参考图像)和空间(坐标)描述,并且每个指令可能同时包含多种导航能力,如 ObjNav、PointNav、ImgNav、Ins-ImgNav 和 VLN。

TBA-CoT 数据集

利用 Qwen-VL 和 DeepSeek-R1 构建了 TBA-CoT 数据集,捕捉每个行动背后的思考过程。该数据集可用于监督和增强智能体的推理能力。

连续环境与强化学习支持

与离散或基于图的设置不同,OctoNav-Bench 提供连续的模拟环境,允许智能体在任意位置自由移动并获取视觉观测,支持在线强化学习。

OctoNav-R1

架构设计

OctoNav-R1 基于 LLaMA-VID 构建,能够接收多模态指令并生成低级动作。模型架构包括视觉编码器、语言编码器、查询生成器等模块,通过交叉注意力和查询投影器将视觉和语言信息融合到 LLM 的嵌入空间中。

混合训练范式(HTP)

  • Action/TBA-SFT:通过指令-轨迹对进行监督微调,使模型能够遵循指令执行动作。同时,利用 TBA-CoT 数据集进行 TBA-SFT,训练模型在行动前进行思考。

  • Nav-GPRO:通过组相对策略优化(GRPO)进一步增强模型的思考能力。该阶段通过定制化的奖励函数和提示模板,鼓励模型生成更高质量的思考过程。

  • 在线强化学习:在模拟环境中进行在线强化学习,使模型能够通过试错和主动学习来优化导航策略。

思考能力

OctoNav-R1 强调“思考后再行动”,通过 TBA-CoT 数据集训练模型生成思考过程和行动序列,使其具备更强的推理能力。

实验

实验设置

在 Habitat 模拟器上进行实验,测试集包含 400 多个未在训练集中出现的场景。使用成功率达到(SR)、路径长度加权成功率(SPL)和最终目标成功率(OSR)等指标进行评估。

与其他方法的比较

OctoNav-R1 在所有能力上均优于先前的方法,例如在 ImgNav 上的 SR 为 30.24%,在 VLN 上的 SR 为 49.18%,而其他方法如 Uni-NaVid、NavGPT-2 等在这些任务上的表现较低。

消融研究

  • Action-SFT:通过指令-轨迹对训练后,模型在多种能力上的表现得到提升,但 VLN 能力略有下降。

  • TBA-SFT:引入思考过程后,模型的整体性能显著提高,尤其在 PointNav 和 ObjNav 上的提升更为明显。

  • Nav-GPRO:进一步增强了模型的思考能力,提升了 VLN 任务的性能。

  • 在线强化学习:通过在线 RL,模型在 ImgNav 和 VLN 任务上的表现进一步提升,同时整体路径效率也有所提高。

  • 思考频率:实验表明,思考频率对性能的影响不敏感,但“何时思考”和“在何处思考”仍然是一个有价值的研究方向。

结论与未来工作

  • 结论
    • 该研究通过构建 OctoNav-Bench 和 OctoNav-R1,展示了在自由形式、多模态和多能力指令下的通用导航智能体的潜力。

    • OctoNav-R1 在模拟环境中表现出色,并在真实世界中展示了初步的 sim2real 泛化能力。

  • 未来工作
    • 未来的工作可以探索更复杂的思考机制,例如慢思考与快思考的协作、场景感知的自适应思考等,以进一步提高模型的推理能力和泛化能力。

    • 此外,还可以研究如何减少视觉语言模型(VLMs)生成的幻觉,以提高导航性能。

相关文章:

  • Python训练营---DAY53
  • yum查看历史操作
  • PDM网络图上的ES、EF、LS、LF是干嘛的怎么计算下一个节点的数值
  • C++中的零拷贝技术
  • 2.线性表的链式存储-链表
  • 掌握产品功能结构图,优化项目开发流程
  • 精粹汇总:大厂编程规范(持续更新)
  • 面向GPU、CPU及机器学习加速器的机器学习编译器
  • 如何关闭WordPress中的评论通知
  • 并发编程-Synchronized
  • WinUI:使用DataGrid控件显示表格
  • 打印机共享问题一键解决,附带设置维护工具
  • 会计-收入-3-关于特定交易的会计处理
  • Power Query动态追加查询(对文件夹下文件汇总)
  • SSM框架实现学生管理系统的需求分析与设计详解
  • 安科瑞亮相2025 SNEC国际太阳能光伏与智慧能源展
  • Mac电脑通过 IntelliJ IDEA 远程连接 MySQL 的详细教程
  • 一个模板元编程示例
  • 亚马逊Woot秒杀:引爆销量
  • Day 48
  • 网站关键词如何优化/南宁百度首页优化
  • 网站seo优化要懂得做微调/seo怎么快速提高排名
  • 网站的关键词/关键词拓展工具有哪些
  • 大连意动网站建设有限公司怎么样/seo网站推广与优化方案
  • 北京网站建设公司代理/搜索引擎排名优化程序
  • 自建团队网站开发要多少钱/百度旧版本下载