具身导航技能分解与重组!SkillNav:基于技能的视觉语言导航智能体混合架构
作者:Tianyi Ma, Yue Zhang, Zehao Wang, Parisa Kordjamshidi
单位:密歇根州立大学,比利时鲁汶大学语音和图像处理组
论文标题:Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents
论文链接:https://arxiv.org/pdf/2508.07642v1
代码链接:https://github.com/HLR/SkillNav
主要贡献
提出了模块化的视觉语言导航(VLN)框架SkillNav,,将导航任务分解为一系列可解释的原子技能(如垂直运动、区域和区域识别、停止和暂停等),每个技能由一个专门的智能体处理,通过这种结构化的技能基础推理,显著提高了对新指令和视觉环境的泛化能力。
引入了基于零样本视觉-语言模型(VLM)的路由模块,能够在每个时间步动态选择最合适的技能智能体,通过将子目标与视觉观察和历史动作对齐来实现。
在R2R基准测试中取得了新的SOTA表现,并在包含新指令风格和未见环境的GSA-R2R基准测试中展现出强大的泛化能力。此外,还对各个组件的有效性进行了全面的消融研究和定性分析,为框架设计提供了有力支持。
研究背景
视觉语言导航(VLN)是具身人工智能的一个关键领域,它整合了自然语言理解、视觉感知和序列决策制定,使自主智能体能够在视觉环境中导航和交互。尽管随着基础模型(如大型语言模型和视觉-语言模型)的出现,VLN在多模态锚定方面取得了显著进展,但现有方法在泛化到未见场景方面仍面临挑战,尤其是在需要复杂空间和时间推理时。
以往的方法主要通过大规模预训练和数据增强来提高VLN智能体的泛化能力,但这些基于端到端的黑盒模型往往依赖于对训练样本的记忆,难以在需要深度组合推理的未观察场景中有效工作。
预备知识
VLN任务的基本设置
任务定义:VLN任务要求智能体根据自然语言指令 在环境中导航,以到达指定的目标位置。环境被离散化为一个连通图 ,其中 是可导航节点的非空集合, 是无向连通边的集合。
智能体的感知:在每个时间步 ,位于节点 的智能体接收一个全景图,表示为 。智能体知道其可导航邻近节点的子集 ,并且其局部动作空间 包括导航到节点 或在当前节点 停止。
基础VLN模型
DUET模型:论文选择DUET作为基础VLN智能体。DUET是一个双尺度图变换器解决方案,它融合了拓扑图和局部观察,用于决策制定。其导航策略表示为 ,其中 是在 步导航后构建的拓扑图, 是预测的动作。
方法
技能分类
原子技能:论文从NavNuances中选取了四个常见的原子技能:方向调整(Direction Adjustment)、垂直运动(Vertical Movement)、地标检测(Landmark Detection)和区域识别(Area and Region Identification)。此外,还引入了两个新技能:停止和暂停(Stop and Pause)以及时间顺序规划(Temporal Order Planning),以解决时间推理和停止标准的问题。
技能的作用:
停止和暂停:使智能体能够根据视觉或语言线索动态控制运动终止和临时停止。
时间顺序规划:使智能体能够推理子目标的序列和结构,例如理解条件即时性、维持动作的持续时间、执行顺序步骤以及处理对先前状态的回溯引用。
数据合成与智能体训练
数据合成:为了训练针对特定技能的智能体,论文构建了一系列合成数据集。每个数据集都包含专门设计的轨迹-指令对,以强调单一导航技能。通过在Matterport3D环境中随机选择起始节点并采样不同的导航路径,为每个技能定义过滤启发式方法,以选择该技能是成功导航的主要因素的轨迹。
指令生成:使用GPT-4o生成强调特定技能的指令。通过提供明确的技能相关提示,生成的指令在保持与真实VLN数据集相当的语言质量的同时,突出目标技能的内容。
训练过程:每个技能智能体的训练分为两个阶段。第一阶段,使用R2R训练集、ScaleVLN增强数据和时间合成数据对预训练的DUET模型进行微调,以获得强大的技能无关背景。第二阶段,在技能特定的合成数据上进一步微调该背景,使智能体能够专注于目标技能。
SkillNav框架
时间重排序模块:该模块仅以原始自然语言指令为输入,将其分解为子目标 。它遵循技能分类部分描述的四种时间逻辑,使隐含的时间细节明确化,并确保子目标执行的正确顺序。
VLM基础动作路由模块:路由模块分为两个推理阶段:
子目标定位器:给定重新排序的子目标、观察历史和之前执行的子目标序列,模型确定当前时间步要执行的子目标,并输出相应的推理轨迹。
技能路由模块:确定哪个技能智能体最适合执行选定的子目标。它接收原始指令作为上下文输入,以捕获额外的语言线索,如动词和空间参考,并使用子目标定位器的推理轨迹来增强对当前子目标的理解。在每个时间步,只选择一个技能智能体来执行导航动作。
实验
评估数据集
R2R 数据集:
来源:R2R 数据集(Anderson et al. 2018b)是 VLN 领域的标准基准测试数据集,包含 Matterport3D 环境中的全景 RGB-D 扫描图,并提供众包的指令与路径配对。
使用场景:主要在 R2R 数据集的未见验证集(Val Unseen)和测试集(Test Unseen)上进行评估。
GSA-R2R 数据集:
来源:GSA-R2R 数据集(Hong et al. 2025)包含住宅(R)和非住宅(N)场景(如商店、餐馆和博物馆),以及多样化的指令风格,包括特定角色的对话(如旅行指南)。
使用场景:用于评估 SkillNav 在新环境和多样化指令风格下的泛化能力。
评估指标
导航误差(NE):智能体停止位置与目标位置之间的距离。
预言成功率(OSR):智能体在其轨迹的任何一点是否足够接近目标,无论它在哪里决定停止。
成功率(SR):智能体在距离目标 3 米内停止的比例。
路径长度加权成功率(SPL):通过成功率与最短路径长度与智能体实际路径长度的比率的乘积来衡量导航效率,惩罚不必要的长路径。
实现细节
视觉和语言骨干网络:使用 CLIP-B/16(Radford et al. 2021)作为视觉骨干网络,BERT-base-uncased(Devlin et al. 2018)作为语言骨干网络。
训练过程:
第一阶段:使用 R2R 训练集、ScaleVLN 增强数据和时间合成数据对 DUET 预训练模型进行微调,共 50,000 迭代,使用 32 的批量大小和 的学习率,在 1 个 NVIDIA A6000 GPU 上进行训练。
第二阶段:基于时间 DUET,使用原子技能合成数据进行第二轮微调,共 30,000 迭代,使用 16 的批量大小。
推理过程:在 SkillNav 的 LLM 架构中,使用 GPT-4o(OpenAI 2024)作为时间重排序模块,Qwen2.5-VL-7B-Instruct(Bai et al. 2025)作为动作路由模块。
主要结果
R2R 数据集:
SkillNav 在 R2R 测试未见环境中实现了 83% 的成功率(SR)和 77% 的路径长度加权成功率(SPL),仅次于 SRDF。
SRDF 在 R2R Test-Unseen 上表现最佳,但其预训练数据与 R2R 指令风格高度相似,限制了其在 GSA-R2R 上的泛化能力。
SkillNav 在 GSA-R2R 数据集上表现出色,尤其是在 Test-N-Scene 分割中,与 NavGPT-2 的成功率(SR)持平,但在路径长度加权成功率(SPL)上显著优于 NavGPT-2。
GSA-R2R 数据集:
SkillNav 在 GSA-R2R 的所有分割中均实现了最高的路径长度加权成功率(SPL),显示出强大的泛化能力。
在 Test-N-Scene 分割中,SkillNav 的 SR 为 72%,SPL 为 61%,显著优于其他方法。
消融研究和分析
技能智能体的消融研究:
在 NavNuances 数据集上对各个技能智能体进行评估,结果显示每个技能智能体在其对应类别中表现出色。例如,垂直运动智能体在垂直运动类别中实现了最高的成功率(SR)和路径长度加权成功率(SPL)。
时间重排序模块的消融研究:
在 GSA-R2R 数据集上,启用时间重排序模块的 SkillNav 在所有基准测试中均优于未启用该模块的版本,特别是在 Test-N-Basic 分割中,路径长度加权成功率(SPL)显著提高。
动作路由模块的消融研究:
与随机选择技能智能体相比,使用 Qwen2.5-VL-7B-Instruct 路由模块的 SkillNav 在成功率(SR)和路径长度加权成功率(SPL)上均表现出显著提升。
与 GLM-4.1V-9B-Thinking 相比,Qwen2.5-VL-7B-Instruct 在复杂和多样化的导航环境中表现出更强的视觉语言对齐和推理能力。
定性分析
示例 1:在 R2R Val Unseen 数据集中,SkillNav 成功识别出智能体已到达目标柱子,并决定停止,选择正确的停止动作。
示例 2:在 GSA-R2R Test-N-Scene 数据集中,SkillNav 识别出需要向楼梯移动,并相应地选择垂直运动技能。
结论与未来工作
结论:
SkillNav框架通过将导航任务分解为原子技能并引入基于VLM的路由模块,有效地提高了VLN智能体在新环境和多样化指令风格下的泛化能力。
该框架不仅提高了决策过程的可解释性,还通过透明地揭示内部决策过程促进了对不同指令和未见视觉环境的稳健适应。
未来工作:
未来的工作可以进一步探索如何将SkillNav与其他技术(如强化学习、环境交互等)相结合,以进一步提升VLN智能体的性能和泛化能力。