当前位置：首页 > news >正文

解锁机器人导航的全模态潜能！OmniVLA：机器人导航的全模态视觉-语言-动作模型

news 2025/9/29 11:13:24

在这里插入图片描述

作者：Noriaki Hirose $^{1,2}$ , Catherine Glossop $^{1}$ , Dhruv Shah $^{1,3}$ , Sergey Levine $^{1}$
单位： $^{1}$ 加州大学伯克利分校， $^{2}$ 丰田汽车北美公司， $^{3}$ 普林斯顿大学
论文标题：OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation
项目主页：https://omnivla-nav.github.io/
代码链接：https://github.com/NHirose/OmniVLA (coming soon)

主要贡献

提出用于机器人视觉导航的全模态视觉-语言-动作模型OmniVLA，能够处理多种模态的目标条件，包括2D姿态、自身中心图像和自然语言，以及它们的组合，从而实现更灵活的导航策略。
OmniVLA在未见环境中表现出强大的泛化能力，对稀疏模态具有鲁棒性，并且能够遵循训练数据中未见过的新的自然语言指令，为机器人在复杂多变的现实世界中的导航任务提供了更可靠的解决方案。
该模型可以方便地微调到新的模态和任务，为未来针对特定场景或任务的进一步优化和定制提供了便利，有助于推动机器人导航技术在不同领域的广泛应用。

研究背景

人类导航的灵活性：人类在导航时能够灵活地理解和组合不同的目标规范，如语言指令、空间坐标或视觉参考，以到达目的地。然而，大多数现有的机器人导航策略都是基于单一模态进行训练的，这限制了它们在现实世界场景中的适应性，因为现实场景中不同形式的目标规范是自然且互补的。
多模态导航的必要性：为了使机器人能够像人类一样灵活地应对各种导航任务，需要开发能够处理多种模态目标的导航策略，以提高机器人在不同环境和任务中的适应能力和泛化能力。

研究方法

模型架构

使用OpenVLA作为基础模型，它是一个具有强大表达能力的视觉-语言-动作（VLA）模型，能够利用互联网规模的知识以及在跨实体机器人数据上微调期间学到的表示，从而使策略展现出强大的泛化和微调能力。

训练策略

采用随机模态融合策略，通过同时学习三种主要模态（2D姿态、自身中心图像和自然语言）以及它们的组合，使模型能够发展出更丰富的几何、语义和视觉表示。此外，还通过在训练中使用模态丢弃和在推理中使用模态掩蔽来解决模态不平衡和稀疏性问题，确保策略能够关注所有可用的目标模态，并从跨模态目标表示中学习。

数据集

训练语料库跨越了10个平台的9500小时，包括人类收集的数据，涵盖了广泛的环境。其中，GNM和LeLaN分别是7个和5个公开可用数据集的混合。LeLaN结合了机器人和非机器人数据，使用基于模型的方法生成朝向目标对象的反事实动作，以及从VLM推理中派生的语言提示。对于FrodoBots-2k数据集，使用MBRA生成合成动作。由于现有的重新注释方法无法弥合BDD-V数据集中实体差距（自动驾驶汽车与小型机器人），因此训练了一个重新注释模型来生成合理的合成动作，使其能够以类似于MBRA的方式用于训练。最后，在CAST数据集上对OmniVLA进行微调，以评估对新语言的适应性。

实验

语言条件导航

Out-Of-Distribution prompt（分布外提示）：在FrodoBots和ERZ上部署OmniVLA进行语言条件导航，提供了分布外的语言提示，这些提示既指导机器人如何移动，也指定了目标位置。尽管训练数据集中包含的提示如“朝X方向移动”，其中X表示目标对象，但模型仍然能够成功地完成导航任务。
In-Distribution prompt（分布内提示）：使用分布内的语言提示进行实验，策略能够成功地避开机器人起始位置与目标对象之间的障碍物。
跨实体分析：在其他机器人实体上部署OmniVLA，包括Unitree GO1四足机器人和基于Roomba的Vizbot原型，在室内外环境中评估策略的跨实体性能。即使在最具挑战性的语言条件导航任务中，机器人也能实现成功的目标到达行为，突出了策略的泛化能力。

多模态条件导航（语言&2D姿态）

通过训练全模态任务表示，OmniVLA可以学习遵循多个目标信号。在10个不同的环境中进行了实验，任务通过提供2D目标姿态（在哪里？）和行为语言指令（如何？）来指定。

2D目标姿态条件导航

将OmniVLA部署用于长距离2D目标姿态条件导航。基于2D目标姿态，策略能够导航到距离机器人起始位置25 - 100米的目标。使用GPS来估计机器人位置和目标位置。

自身中心目标图像条件导航

除了语言和2D姿态条件导航外，还在室内环境中评估了自身中心目标图像条件导航策略。类似于之前的图像条件方法（如ViNT、ExAug和NoMaD），策略能够导航到距离3米以内的目标，从而可以使用拓扑记忆来到达更远的目标。
为了收集目标循环，以1Hz的固定帧率远程操作机器人并记录图像观察。在部署过程中，从初始观察开始，并在每个时间步骤中，将拓扑记忆中最近节点的图像作为目标图像提供给策略，以计算下一步动作。