当前位置：首页 > news >正文

InternVLA-N1——规划-执行双系统下的VLN基础模型：具备学习型的潜在规划能力，可部署在轮式、四足、双足人形上

news 2025/9/20 13:17:34

前言

实话讲，我们接的订单中，涉及到越来越多导航的内容——比如展厅讲解，因为宇树自带的导航/避障还有待成熟，故这一两年，大家对人形导航的研究、探索、优化从未停止过，包括我司

要么基于传统导航框架，比如先使用宇树G1的SDK获取传感器数据，后将数据接入通用SLAM算法(如FAST-LIO2、LIO-SAM)，最后通过ROS Navigation2框架实现导航
要么基于试图摆脱建图的VLN

而之前博客内解读过的navila，如果编译经常会出现各种版本冲突的情况，大部分真到真机部署后，其导航成功率都不太理想，还需要不断优化

故我也一直在高度关注VLN的进展，加之我个人组建的『七月具身：VLN为代表的人形导航』群里，有群友提到了InternVLA-N1，故本文来解读之

第一部分 InternVLA-N1——双系统下的VLN基础模型，具备学习型潜在规划能力

1.1 引言与相关工作

1.1.1 引言

导航是机器人领域中的一项基础任务。在实际应用中，导航系统通常以语言指令和视觉观测作为输入，并据此执行规划好的轨迹

近年来，该领域取得了显著进展，从基于离散目标规划构建基准Anderson等人（2018a）；Ku等人（2020）到连续动作空间Krantz等人（2020b），再到结合运动控制器的物理真实仿真Cheng等人（2025）；Wang等人（2025b）
另一方面，多模态大语言模型（LLM）凭借其强大的先验知识，为在仿真环境中训练此类模型并泛化至开放的真实世界提供了新的可能性
研究社区对此方向表现出越来越浓厚的兴趣Cheng等人（2025）；Wei等人（2025）；Zhang等人（2025a）；Zheng等人（2024），并已在多种机器人形态上进行了初步且成功的尝试，包括四足机器人和人形机器人

然而，尽管这些模型是在诸如VLN-CE(Krantz等，2020b)等连续环境基准上开发的，其动作空间却被简化为离散选择，并以端到端的方式进行预测。因此，它们只能在有限的空间内采取短期动作步骤，在推理速度和导航行为的连续性方面表现不佳

类似整体框架的机制类似于人类认知理论（Kahneman，2011）中的“系统1执行与系统2思考”
已有若干关于构建VLA模型的类似尝试，例如Helix FigureAI（2025）、GR00T（Bjorck等，2025）、HiRobot（Shi等，2025）以及OneTwoVLA（Lin等，2025b）
直观来看，相较于从视觉观察和语言指令到直接动作输出的硬映射(即端到端的VLA)
$\rightarrow$ (比如系统2)更自然的目标类型应当是中期目标，特别是在图像像素层面，这能够指示机器人应该前往的位置，并且可以与多模态大模型的视觉定位能力相结合

$\rightarrow$ 同时，另一个高频率的局部规划器-系统1，被设计用于以敏捷的方式执行朝向中期目标的路径规划，并能够避开动态障碍物

来自的研究者提出了InternVLA-N1，这是首个融合了学习型潜在计划(learned latent plans)作为中间表示的开放式双系统VLN基础模型

其对应的paper地址为：InternVLA-N1: An Open Dual-System Vision-Language Navigation Foundation Model with Learned Latent Plans
其核心作者包括
Wenzhe Cai, Delin Feng, Yu Liu, Jiangmiao Pang, Jiaqi Peng, Chenyang Wan, Hanqing Wang, Liuyi Wang, Tai Wang, Meng Wei, Yuqiang Yang, Xiqian Yu, Chenming Zhu
以及还有几十个贡献者，详见原论文最后
其对应的项目地址为：internrobotics.github.io/internvla-n1.github.io，
其对应的GitHub地址为：github.com/InternRobotics/InternNav

其中

与在完全可观测环境(如桌面操作)中的规划不同，InternVLA-N1中的系统2需在部分可观测和移动外感知视角的条件下，根据语言指令进行多轮、精确的规划
同时，系统1负责在真实世界环境中执行这些计划，并能够稳健应对诸如行人等动态干扰

为了解决这些挑战，如下图所示

作者将System 2设计为像素目标规划器，利用VLM作为核心，以充分发挥其内在的常识知识和多模态感知能力
且将像素目标定义为投影在二维图像平面上的首选导航航点
System 2被训练以使其像素定位能力与视觉语言导航（VLN）领域对齐
作为补充，System 1被设计为一种轻量级、基于扩散的视觉导航策略，能够根据System 2生成的目标进行实时路径规划
即，System 1则被训练以明确的目标(包括像素目标坐标)为条件，生成无碰撞的导航路径以到达目标

尽管这两个系统在预训练后可以级联成一个完整的VLN框架，但这种设计带来了若干关键挑战

首先，将System 2的规划与System 1的执行同步，显著增加了整体延迟，因为System 1必须等待多模态LLM的响应
这种延迟削弱了系统对实时环境的有效响应能力，从而降低了其在动态环境中的可行性
其次，使用二维像素坐标来表示导航目标会导致歧义，常常使System 1表现出次优或混乱的行为

为了解决这些问题，作者引入了一个额外的微调阶段，该阶段能够实现异步推理，并增强两个中间目标接口之间的空间表示能力

具体来说，在微调过程中，System 1 持续接收最新观测信息，而 System 2 则基于延迟输入进行操作。这一设置促使 System 1 能够动态评估目标完成情况，并适应异步执行的节奏
————————
对于这点，我第一反应想到了helix 的设计，即基于不同的采样频率
包括另一个相似工作HiRT的设计亦如此，具体如下图左侧所示
上面用于动作执行的vision encoder的采样频率偏高：为1/ 1 × step，比如1/ (1×5) = 1/5
下面用于推理规划的VLM的采样频率偏低：为1/n × step 比如1/ (3 × 5) = 1/15
此外，作者用可学习的潜在 token 替换了显式像素目标，从而通过联合调优实现更具信息量的隐式规划参考

为增强并验证潜在表征，作者训练了一个基于潜在计划(latent plans)的世界模型，用于预测后续的自我中心观测序列，作为扩展

他们声称，实验表明，他们的世界模型能够对规划目标生成一致且高质量的自我中心观测序列。视频预测目标有助于从潜在 token中提取空间信息，并加速联合调优过程的效率，同时也带来了可扩展的真实视频数据训练范式

为支持上述的预训练和联合微调，作者开发了一套高效的仿真数据生成流程，能够在单台机器上一天生成5万条导航轨迹。该流程集成了自动指令标注和数据过滤过程，使得能够构建大规模导航数据集 InternData-N1，其中包含超过5300万条第一视角图像观测和80万条语言指令，覆盖3000多个室内场景

1.1.2 相关工作

// 待更

1.2 InternData-N1 数据集

对于导航任务，大多数现实世界的数据集（Hirose 等，2018，2023；Karnan 等，2022；Shah 等，2021）受限于场景多样性和规模。同时，互联网视频数据集（Lin 等，2023；Liu 等，2025）则存在定位和映射信息不精确的问题，这限制了它们作为轨迹预测导航数据集的可靠性

相比之下，作者提出了三种高效的仿真导航数据集生成流程，以促进可扩展性训练。具体来说，InternData-N1 数据集包括子集 VLN-N1、VLN-CE 和 VLN-PE，这些子集具有互补特性：

VLN-N1 数据集收集自大规模开源 3D 资产，并通过广泛的领域随机化，以提升其对多样化真实场景的泛化能力
VLN-CE 提供高质量、细粒度的指令标注，这有助于提升在长时序下游导航任务中的表现
VLN-PE在基于物理的仿真中集成了低层运动控制器，通过在导航过程中建模真实的机器人动力学，有效支持从仿真到现实的迁移

1.2.1 VLN-N1

丰富的开源场景资产为生成室内导航轨迹提供了理想的实验平台。作者采用了Replica（Straub等, 2019）、Matterport3D（Chang等, 2017）、Gibson（Xia等,2018）、3D-Front（Fu等, 2021）、HSSD（Khanna等, 2024）以及HM3D（Ramakrishnan等, 2021）作为场景库

且为了生成带有自我中心观测的真实导航过程，作者通过多阶段路径规划流程批量生成无碰撞且平滑的轨迹

首先，基于网格结构为每一层楼构建欧几里得符号距离场（ESDF），然后全局路径规划包含三个步骤，与以往工作（Cai等, 2025）类似：

利用A*算法为随机采样的起点和目标初始化全局路径
基于ESDF地图优化轨迹关键点
轨迹平滑处理
收集到的轨迹用于在BlenderProc（Denninger等, 2020）中渲染RGB和深度观测

为了生成细粒度或长时序任务的语言指令，作者

首先根据轨迹的几何信息提取关键帧，例如在急转弯时对应的帧。基于提取的关键帧，将整个轨迹划分为多个子片段
随后，采用开源多模态大模型 LLaVa-OneVision（Li 等，2024）为每个子片段生成细粒度的语言指令

作者发现生成的指令在语言风格上存在局限性，因此进一步引入另一种语言模型——Qwen3-72b（Yang 等，2025），对每个片段的语言指令进行改写，并将所有子片段的内容总结为一条长时序任务指令
具体而言，按照如图 3 所示的流程

作者构建了一个新的大规模导航数据集 VLN-N1。数据集的比例细节及统计指标如图 2 所示

1.2.2 VLN-CE

VLN-CE数据集源自已有的视觉与语言导航基准，包括VLN-CE（Krantz等，2020b）、EnvDrop（Tan等，2019）和ScaleVLN（Wang等，2023a），这些基准旨在训练通用的室内导航模型

且作者利用Habitat模拟器（Szot等，2021），渲染Matterport3D（Chang等，2017）和HM3D（Ramakrishnan等，2021）中的场景，并回放相应的导航片段以收集数据集

具体而言，作者在Habitat中使用内置的ShortestPathFollower代理，通过跟随预定义的参考路径生成轨迹，每条路径均对应一条精细对齐的自然语言指令
动作空间遵循Habitat默认的VLN任务配置，包括四个离散动作：
MOVE_FORWARD（前进0.25米）
TURN_LEFT（左转15°）
TURN_RIGHT（右转15°）
STOP（停止）
在每个导航片段中，作者记录了RGB观测与相应的动作序列

最终，作者共采集了332,179个导航片段，覆盖Matterport3D和HM3D数据集中的856个独特场景。为便于训练System 2，作者将原始轨迹划分为多个片段，并将代理的位置投影到二维图像平面上，作为像素级目标标签

1.2.3 VLN-PE

VLN-PE数据集旨在通过收集反映物理仿真平台InternUtopiaWang等人（2024a）中真实机器人运动的数据，弥合视觉-语言导航（VLN）任务中的仿真到现实差距

与之前的VLN-N1和VLN-CE不同，VLN-PE明确地将机器人具身性与运动策略纳入数据采集流程
作者采用多样化的机器人平台，包括四足机器人（Unitree AlienGo）、人形机器人（Unitree H1 和 G1）以及轮式机器人（Jetbot），并利用现有的基于学习的运动控制器（Long 等人, 2024a,b；Pan 等人,2025）来控制其移动
每个机器人都需要按照与自然语言指令对应的预设导航路径进行移动，从而生成相应的第一视角观测数据。语言指令和路径主要来源于 R2R 数据集（Anderson 等人, 2018a），但经过了修改

且作者排除了涉及楼梯通行（即上下楼梯）的片段，因为当前的运动策略尚无法稳定应对这类场景。最终得到的 VLN-PE 数据集覆盖了 Matterport3D 数据集（Chang 等人, 2017）中的 61 个场景，共包含 8,679个片段

1.3 InternVLA-N1的完整方法论

1.3.0 概述

如图4所示，InternVLA-N1 采用了组合式架构，具有双系统设计，能够协同结合高层指令解析与低层动作执行

简言之，System 2感知长时域多模态输入，并以2 Hz的频率将其转换为中期潜在计划(相当于helix中的Latent Vector，属于被压缩后的潜在语义信息)；而System 1则处理异步的潜在计划以及短期视觉观测

从而实现实时决策『System 2 perceives the long-horizon multi-modalinputs and translate into mid-term latent plans at 2 Hz, while System 1 processes the asynchronous latent plans along with short-term visual observations to enable real-time decision making』

具体而言，该系统集成了：

系统2：一个基于视觉-语言模型（VLM）的规划模块，用于解释导航指令，通过基于图像的推理预测中期航点目标(mid-term waypoint goals)
该模块通过在图像空间中预测像素坐标，有效地将指令理解与空间推理连接起来，从而实现长距离导航指令的执行
系统1：一种多模态、基于目标的扩散策略，通过潜在计划引导或显式目标支持，能够根据当前观测和来自系统2的异步潜在特征(asynchronous latent features)生成可执行的短期轨迹
该系统实现了在复杂环境中的鲁棒、实时控制与局部决策

总之，为了充分释放双系统架构在开放世界泛化和异步推理能力方面的潜力，作者设计了一套课程训练方案

首先，分别对每个系统进行独立训练，使其在同步环境下通过显式目标掌握基础导航技能
随后，引入联合微调阶段
在该阶段，作者将可学习的token作为隐式中期目标(implicit midterm goals)融入System 2，以减少基于像素的目标的不确定性
此外，System 2还接收延迟观测，这迫使System 1适应异步执行

1.3.1 System 2：基于Qwen-VL-2.5的像素定位规划

系统的目标规划模块基于 Qwen-VL-2.5（Bai 等人，2025）构建，该模型是一款强大的开源视觉-语言模型，具备空间定位能力

Qwen-VL-2.5 主要包括三个核心组件：视觉编码器、语言模型以及用于模态融合的轻量级多模态连接器。该模型能够通过直接预测像素坐标来支持定位任务，因此特别适用于需要精细化定位的任务，例如指代表达理解和视觉问答

为了使 Qwen-VL-2.5 能够适应视觉与语言导航（VLN）任务，作者将高层次规划表述为最远像素目标预测问题。该模型以一系列自我中心视角图像和语言指令作为输入，预测图像中与下一个优选导航路径点对应的二维坐标
且作者使用 InternData-N1 的 VLN-CE 子集对 Qwen-VL-2.5 进行了微调。通过测量智能体位置与相机视野之间的可见性，作者将每条原始的 VLN-CE 轨迹划分为多个最远像素预测训练样本，最终为导航规划任务生成了超过500万个样本

此外，System 2 负责在任务完成时决定何时停止，并在图像中未检测到合适的导航航点时执行现场旋转。与直接动作预测相比，他们的方法为多模态理解与空间决策之间的衔接提供了一种更高效的机制

1.3.2 System 1：多目标条件扩散策略

他们的系统1模型是一种基于扩散的局部导航策略，专为实时避障和路径规划而设计。其架构与作者之前的工作NavDPCai等人(2025)类似，能够同时预测导航轨迹及其对应的安全评分，用于轨迹选择

且为了提升在不同类型目标下的导航性能，作者引入了显式目标嵌入对齐作为额外的训练目标

具体而言，作者将点目标视为目标指定的一种通用且无歧义的形式。系统中引入了两个辅助预测头，分别以图像目标和像素目标的嵌入作为输入，并使用点目标作为监督标签

目标对齐损失与动作损失和评论家损失共同构成整体训练目标

通过引入目标对齐目标，所有类型的导航任务都被隐式地转化为点目标导航任务，从而显著降低了学习的复杂性。System 1 在 VLN-N1 子集上进行训练

1.3.3 分层联合训练

1.3.3.1 阶段一：单系统预训练

System2 的训练过程始于一个已经在大规模图文语料库上预训练的视觉-语言模型（Qwen-VL-2.5 7B 模型）。作者通过任务自适应的有监督微调，将该模型调整为适用于导航特定的规划任务

具体而言，作者使用包含导航指令、以自我为中心的观测以及中期航路点的配对轨迹(use paired trajectories consisting of navigation instructions, egocentric observations, and mid-termway points)。在该设置中，每个中期航路点被表示为当前观测图像像素空间中的二维坐标
在训练过程中，所有组件——包括视觉编码器、跨模态连接器和语言模型——都与作者精心整理的SFT数据集共同优化一个周期。模型学习在上下文中理解指令，并预测与预期导航航路点一致的图像像素级目标位置『The model learns to interpret the instruction in context and predict the pixel-level goallocation on the image that aligns with the intended navigation waypoint』

除了DepthAnything Yang 等人提出的RGB 编码器外，System 1 模型的所有组件均从零开始训练。System 1 模型的训练包含三个主要目标：

不同目标之间的嵌入对齐
对于嵌入对齐，作者增加了两个辅助的点目标预测任务，输入分别为图像目标编码或像素目标编码。这有助于从零开始训练的目标编码器捕捉到对导航任务重要的表征

具体而言，设图像目标为 $I_{g} \in \mathbb{R}^{C \times H \times W}$ ，当前RGB 观测为 $I_{t} \in \mathbb{R}^{C \times H \times W}$
像素目标为 $c_{g}=(u, v)$
点目标为 $p_{g}=(x, y, \theta)$

为了编码像素目标 $c_{g}$ ，作者首先将 $c_{g}$ 转换为图像掩码 $M_{g}$ ，其中仅 $(u, v)$ 附近的局部区域为1，其余像素为0

然后，作者使用两个从零开始训练的ViT 编码器分别融合：图像目标 + 观测 $\left(I_{g}, I_{t}\right)$ ，和图像掩码 + 观测( $\left(M_{g}, I_{t}\right)$
编码后的嵌入 $z_{i}=f_{\text {img }}\left(I_{g}, I_{t}\right)$ 和 $z_{p}=f_{p i x}\left(M_{g}, I_{t}\right)$ 通过一个附加的MLP 层来预测估算的点目标

然后，目标对齐损失可以表示为：
$\mathcal{L}^{\text {goal }}=\frac{1}{N} \sum_{i=1}^{N}\left\|\operatorname{MLP}\left(z_{\text {img }}\right)-p_{g}\right\|^{2}+\frac{1}{N} \sum_{i=1}^{N}\left\|\operatorname{MLP}\left(z_{\text {pix }}\right)-p_{g}\right\|^{2}$
扩散策略的噪声预测以及评论家预测
扩散过程和评论家预测的训练损失均遵循NavDP 中提出的方法

作者联合优化动作损失、评论家损失和目标对齐损失，并使用加权系数对它们进行平衡。作者将系数设置为α = 0.8, β = 0.2 和γ = 0.5

总体训练目标定义为：

$\mathcal{L}^{\text {system } 1}=\alpha \cdot \mathcal{L}^{a c t}+\beta \cdot \mathcal{L}^{c r i t i c}+\gamma \cdot L^{\text {goal }}$

1.3.3.2 阶段二：多系统联合微调

用二维像素来准确表示三维导航目标存在歧义，并且在嵌入式设备上对7B 视觉语言模型进行高速推理也具有挑战性。因此，能够连接不同系统的中间特征设计成为了关键因素

这些中间特征应当在不降低原有系统效率或表征能力的前提下，保留其优势，同时能够在具备互补功能的系统间实现有效的信息流动
且作者没有直接使用VLM 的隐藏状态，因为其中包含大量异构信息，而是引入了一组可学习的潜在查询(latent queries)
输出的潜在特征作为紧凑的中间体，通过提示微调连接视觉语言模型（VLM）与扩散策略模型

此外，作者还调整了两个系统输入的时序对齐，以适应异步执行。具体来说，系统1 在时间步 $T$ 接收最新观测，而系统2 的RGB 记忆输入则从较早的时间步中采样，范围为 $(0, T-K)$ ，其中 $K$ 是在(0,12) 区间内随机选择的间隔。这种时序解耦使得双系统框架能够更好地适应异步执行

1.3.4 扩展：通过世界模型学习更优的潜在计划

为了构建更优的潜在计划表征，作者提出了一种模型扩展方法，即利用预测型世界模型解码器生成朝向中期目标的自我中心观测序列。这一范式有望实现基于互联网视频的可扩展训练，并在隐含层面提升
在动态环境中的预测能力
具体而言，作者采用了预训练的1.3B Wan2.1模型(Wan等，2025)作为的主干网络，将其原有的基于T5的编码器(Raffel等，2020)替换为由System 2生成的潜在规划token

经过在InternData-N1导航数据集上的微调后，该世界模型能够基于System 2输出的潜在规划(latent plans)，高精度地模拟未来结果

// 待更

查看全文

http://www.dtcms.com/a/391774.html