当前位置：首页 > news >正文

北航自由指令驱动的多模态导航最新研究：OctoNav：开启通用智能体具身导航

news 2025/9/3 11:49:00

作者： Chen Gao, Liankai Jin, Xingyu Peng, Jiazhao Zhang, Yue Deng, Annan Li, He Wang, Si Liu
单位：北京航空航天大学，新加坡国立大学，北京大学，北京中关村学院
论文标题：OctoNav: Towards Generalist Embodied Navigation
论文链接：https://arxiv.org/pdf/2506.09839
项目主页：https://buaa-colalab.github.io/OctoNav/
代码链接：https://github.com/buaa-colalab/OctoNav-R1

提出了一个大规模基准测试平台 OctoNav-Bench 和一种基于视觉语言动作（VLA）的方法 OctoNav-R1，旨在构建能够遵循自由形式指令的通用导航智能体（generalist navigation agents）。
OctoNav-Bench 包含 400 多个 3D 场景和 45k+ 指令-轨迹对，支持大规模训练。这些指令是自由形式的，融合了多种模态（视觉、文本、坐标）和多种能力（如 ObjNav、PointNav、ImgNav 等），并构建了一个包含 10k+ 指令-思考-动作对的 Think-Before-Action Chain-of-Thought（TBA-CoT）数据集，用于捕捉行动背后的思考过程。
OctoNav-R1 基于 MLLMs 构建，能够直接从 2D 视觉观测生成低级动作，并通过提出的混合训练范式（Hybrid Training Paradigm, HTP）进行训练，该范式包括三个阶段：Action/TBA-SFT、Nav-GPRO 和在线强化学习（Online RL）。该方法强调“思考后再行动”，通过 TBA-CoT 数据集训练模型，使其具备生成思考过程和行动序列的能力。
在模拟环境中展示了 OctoNav-R1 的优越性能，并在真实世界中进行了初步的 sim2real 泛化实验，验证了其在现实场景中的适用性。

传统的导航研究被划分为不同的任务，如目标导航（ObjNav）、点导航（PointNav）、图像导航（ImgNav）、实例图像导航（Ins-ImgNav）和视觉语言导航（VLN）。这些任务在设置、输入模态和目标上存在差异，导致数据集和方法都是针对特定任务设计的。
然而，理想中的通用智能体应该能够遵循自由形式的指令，这些指令不仅包含单一任务指令，还可能融合多种模态和多种能力。例如，指令可能要求智能体先导航到某个位置（PointNav），然后找到某个物体（ObjNav），最后通过视觉匹配找到特定场景（ImgNav）。当前的研究方法在处理这种复杂指令时存在局限性。

指令以自由形式生成，融合了文本、视觉（参考图像）和空间（坐标）描述，并且每个指令可能同时包含多种导航能力，如 ObjNav、PointNav、ImgNav、Ins-ImgNav 和 VLN。

利用 Qwen-VL 和 DeepSeek-R1 构建了 TBA-CoT 数据集，捕捉每个行动背后的思考过程。该数据集可用于监督和增强智能体的推理能力。

与离散或基于图的设置不同，OctoNav-Bench 提供连续的模拟环境，允许智能体在任意位置自由移动并获取视觉观测，支持在线强化学习。

OctoNav-R1 基于 LLaMA-VID 构建，能够接收多模态指令并生成低级动作。模型架构包括视觉编码器、语言编码器、查询生成器等模块，通过交叉注意力和查询投影器将视觉和语言信息融合到 LLM 的嵌入空间中。

Action/TBA-SFT：通过指令-轨迹对进行监督微调，使模型能够遵循指令执行动作。同时，利用 TBA-CoT 数据集进行 TBA-SFT，训练模型在行动前进行思考。
Nav-GPRO：通过组相对策略优化（GRPO）进一步增强模型的思考能力。该阶段通过定制化的奖励函数和提示模板，鼓励模型生成更高质量的思考过程。
在线强化学习：在模拟环境中进行在线强化学习，使模型能够通过试错和主动学习来优化导航策略。

OctoNav-R1 强调“思考后再行动”，通过 TBA-CoT 数据集训练模型生成思考过程和行动序列，使其具备更强的推理能力。

在 Habitat 模拟器上进行实验，测试集包含 400 多个未在训练集中出现的场景。使用成功率达到（SR）、路径长度加权成功率（SPL）和最终目标成功率（OSR）等指标进行评估。

OctoNav-R1 在所有能力上均优于先前的方法，例如在 ImgNav 上的 SR 为 30.24%，在 VLN 上的 SR 为 49.18%，而其他方法如 Uni-NaVid、NavGPT-2 等在这些任务上的表现较低。

结论：
- 该研究通过构建 OctoNav-Bench 和 OctoNav-R1，展示了在自由形式、多模态和多能力指令下的通用导航智能体的潜力。
- OctoNav-R1 在模拟环境中表现出色，并在真实世界中展示了初步的 sim2real 泛化能力。
未来工作：
- 未来的工作可以探索更复杂的思考机制，例如慢思考与快思考的协作、场景感知的自适应思考等，以进一步提高模型的推理能力和泛化能力。
- 此外，还可以研究如何减少视觉语言模型（VLMs）生成的幻觉，以提高导航性能。