当前位置：首页 > news >正文

SkyVLN: 城市环境中无人机的视觉语言导航和 NMPC 控制；香港科技大学

news 2025/9/29 7:42:32

##论文记录
本文提出SkyVLN这一新型框架，将视觉 - 语言导航（VLN） 与非线性模型预测控制（NMPC） 相融合，以提升无人机在复杂城市环境中的自主性；该框架配备多模态导航智能体，含细粒度空间描述器（HSD） 和历史路径记忆机制（TBMA） ，能解决空间歧义、处理模糊指令并实现回溯，同时通过 NMPC 模块实现动态避障；基于 AirSim 构建高保真 3D 城市仿真环境，在 AVDN 数据集上的实验表明，SkyVLN 在可见和不可见环境中均显著提升导航成功率（如不可见测试集成功率达 42.37%）和效率，优于 Random、CMA、NavGPT 等基线模型。

一、研究背景与意义

无人机应用现状：无人机因自主性、机动性和适应性，在监控、物流（优化路径规划与库存管理，提升配送效率）、搜救、医疗等领域广泛应用，成为多功能工具。
技术发展驱动：大型语言模型（LLMs）能学习应用行为、处理多模态输入（视觉 + 自然语言），通过预训练的视觉 - 语言通用表示实现任务规划与常识推理，为无人机视觉 - 语言导航（VLN）提供可能。
现有挑战
- 跨模态接地问题：LLM/VLM 如何增强视觉与语言的跨模态关联未明确。
- 定量效能缺失：视觉定位与语言衍生空间描述的定量效果未探索。
- 空中导航特殊性：相比地面导航，空中导航面临3D 动作空间（需 “上升”“下摇” 等动作）、复杂视觉定位（高楼遮挡 GNSS 信号）、动态避障（长路径 + 天气 / 光照影响）三大难题。

Fig 1：具有位置识别功能的无人机的视觉与语言导航。语言模型（LLM）为无人机提供设计好的着陆点的口头描述（a）。无人机将自身的视觉观察结果与 LLM 的描述（b）至（d）进行对比，并对这些描述的准确性进行推理，从而确认d）作为正确的位置。

相关工作
三种类型的无人机visual language navigation VLN模式。Direct（直接控制）、Instruction-level（指令式）以及end-to-end（端到端式）。
1）直接控制：
核心方式：通过预编程指令控制无人机运动，依据预定义路径或实时传感器数据实现。
优势场景：适用于目标明确、环境清晰的任务，能满足精准机动需求，效率较高。
局限性：
灵活性不足：在存在倒塌建筑的城区、复杂电磁环境或突发干扰场景中，易出现飞行不稳定。
自主性欠缺：无法独立处理任务，不适合长时间作业或远程操作。
2）指令式：
指令级控制指通过解读高级命令或指令来引导无人机行为，该方式能实现更具人性化的人机交互，让无人机可依据自然语言指令适应环境变化。
局限性：
自然语言指令可能存在歧义，导致无人机产生误解读，进而引发错误操作或任务失败
3）端到端式：
借助机器学习技术，将感知输入直接映射为控制动作，无需人工设计特征提取和决策流程。该类系统在处理复杂数据结构方面展现出潜力，且在不同环境中具备更优的泛化能力。
局限性：
一方面，端到端策略需大量高质量训练数据才能实现良好性能，而这类数据（尤其针对特定或小众应用场景）获取难度较大；另一方面，其模型在全新或未见过的环境中泛化能力较差，易导致性能下降。

二、核心框架：SkyVLN 设计

SkyVLN 是融合视觉 - 语言导航与非线性模型预测控制（NMPC）的框架，架构如图 2 所示，含三大核心模块：
工作流程：

智能体（Agent）先通过视觉与语言信息感知环境；
寻路提示优化（WPO）模块从感知结果中提取更丰富的空间信息，同时借助存储历史轨迹的记忆层，为模糊导航任务提供更多导航线索；
大语言模型（LLM）运动生成器以上述两个模块的导航提示，以及系统提示、动作提示作为输入，输出当前思考与动作

Fig2. VLN代理的整体体系结构可以考虑指令和视觉感知。该解决方案不需要监督培训。提议WPO进一步完善定位精度。

初始位姿：每轮任务初，智能体有 12 参数初始位姿 P，含位置 [x,y,z]、线速度 [u,v,w]、姿态角 [φ,θ,ψ] 及角速度 [p,q,r]。
任务要求：接收自然语言指令 X（含 L 个词元 wᵢ），需结合指令与视觉感知预测动作。
感知限制：虽模拟器支持全景观测，但基线智能体仅获前视 RGB、深度、语义图像，需旋转获取其他视角。
终止条件：执行 STOP 动作，或动作数达预设最大值，导航结束。

（一）多模态感知模块

视觉感知设备：无人机前置广角相机，可沿俯仰轴上下旋转 90°，需旋转自身获取全景图像，输出RGB 图像、深度图像、语义分割图像三种前视观测数据。（无人机怎么看世界）
地标检测与筛选：采用现成视觉 - 语言模型GroundingDINO 粗检测图像中的地标，若同一地标出现在多视角中，选择得分最高的视角作为该地标观测视角。（无人机怎么懂指令）
指令子目标提取：利用预训练 LLM（擅长零样本学习与语境理解）从自然语言指令 T 中提取地标短语，形成地标集合 L，公式为：L=LLM ( T, prompt ) (1)（无人机怎么 “聪明地找路”）

该过程将指令分解为子目标，支持分步推理、自适应路径规划与回溯探索（如图 3）。

Fig3. GPT代理没有内存图的GPT代理的思维过程的比较。给定有模棱两可的说明的模棱两可的描述，代理可以漫无目的地探索，尤其是在已经发生导航错误时。
左边：没有记忆图的情况
当指令模棱两可时，机器人拿到指令后，发现没有能和指令对上的选择，就只能 “盲目探索”，比如图里说 “朝着西边区域转，继续探索”。就像你没带地图，别人跟你说 “去几个地方”，但没说清楚顺序，你就只能随便选个方向瞎走。
右边：有记忆图的情况
记忆图就像机器人的 “导航记忆本”，会记录哪些地方探索过（蓝色节点）、当前位置（带机器人标的）、哪些路能走（可导航路径）等。当发现指令里指定的地点都还没找到时，记忆图会提示 “该往回走啦”，比如图里说 “得回到地点 3，从那儿能去地点 2，再到地点 0”。这样机器人就不会瞎逛，能根据 “记忆本” 规划更合理的路线。

（二）寻路提示优化（WPO）

用于填补感知结果与推理输入间的差距，含两个互补子模块：

高分辨率空间描述器（HSD）
- 解决问题：仅基于无人机视角的粗略空间描述，无法让 LLM 精准判断地标相对位置（如 “前方道路” 可能居中或偏侧）。
- 实现方式：将无人机每个视角划分为9 个特定扇区（如 “#0” 代表左上扇区），结合视觉特征与文字特征，让 LLM 对查询 - 候选对生成描述并排序，精准表述地标在扇区中的坐标（如图 4）。
- 为了解决之前无人机只能模糊描述地标位置的问题，研究里设计了 “高分辨率空间描述器（HSD）” 这个工具：
  HSD 先将无人机每个视角分成 9 块带专属标记（如左上角为 “#0”）的区域；再融合无人机图像提取的视觉特征与地标文字提取的文字特征。查询特定地标时，先挑出最像的前几个候选，让 LLM 为 “查询 - 候选” 组合写描述，对比描述与查询的相似度并排序，最终能精确到地标在 9 块区域中的具体位置，避免 “前方” 这类模糊表述，帮无人机精准找地标。

Fig.4：具有里程碑标记的细粒视觉识别器的示意性结构。分数矩阵显示出更高的分数。 LLM根据描述性文本评估并对查询视图对进行排名

回溯记忆阵列（TBMA）
- 解决问题：模糊指令（如 “左转→右转→直行”）无地标参考，导致无人机重复动作或盲目探索（如图 3 左）。
- 实现方式：以图结构存储无人机历史轨迹（节点为已遇地标，边为地标间导航指令），通过最短路径算法，基于当前观测地标与目标地标生成可行路径；同时设计格式化提示，让 LLM 向指令发送者请求澄清。
- 协同作用：HSD 检测到模糊地标（如 “白色建筑”）时，触发 TBMA 查询历史参考，TBMA 提供时间上下文后，HSD 重新聚焦相关区域提取特征，优化路径规划。
- 通过在 TBMA 中纳入 “历史节点”（即过去遇到的地标），无人机不再是 “局部盲目导航”，而是能：理解环境的空间结构（比如地标间的相对位置、连接关系）；实现全局探索（而非局限于当前视野）和路径规划（基于历史信息规划更合理的路线）。
- 用 TBMA 构建 “空间记忆图” 解决路径存储与检索，用 LLM 解决指令澄清与动作决策，最终让无人机能更智能地完成导航任务。

（三）非线性 MPC 控制（动态避障）

该模块是 SkyVLN 的 “动作执行层”，负责将 LLM 规划的 “路径” 转化为 “安全、精准的飞行控制指令”，核心解决 “动态障碍物避障” 与 “轨迹跟踪精度” 问题，是无人机在复杂城市环境中安全飞行的关键：
文章自定义了6 自由度（6-DoF）无人机动力学模型，公式如下：
$\left\{\begin{array}{l} \dot{p}(t)=v(t), \\ \dot{v}(t)=R(\phi, \theta)\left[\begin{array}{l} 0 \\ 0 \\ T \end{array}\right]+\left[\begin{array}{c} 0 \\ 0 \\ -g \end{array}\right]-A v(t), \\ A=\left[\begin{array}{ccc} A_{x} & 0 & 0 \\ 0 & A_{y} & 0 \\ 0 & 0 & A_{z} \end{array}\right], \\ \dot{\phi}(t)=\frac{1}{\tau_{\phi}}\left(K_{\phi} \phi_{ref}(t)-\phi(t)\right), \\ \dot{\theta}(t)=\frac{1}{\tau_{\theta}}\left(K_{\theta} \theta_{ref}(t)-\theta(t)\right), \end{array}\right.$
关键参数含义： $p (t)$ 为无人机位置，(v(t))为速度，(R(\phi,\theta))为欧拉角旋转矩阵（描述姿态），T为电机总推力，g为重力加速度，A为线性阻尼矩阵（影响速度衰减），(\phi/\theta)为横滚 / 俯仰角，(K_{\phi}/K_{\theta})为控制增益，(\tau_{\phi}/\tau_{\theta})为时间常数（描述姿态响应速度）。
核心作用：该模型精准描述无人机的 “位置 - 速度 - 姿态” 动态变化规律，确保 NMPC 模块生成的控制指令符合物理定律，避免 “不可能的动作”（如瞬间大幅转向）。

面向动态障碍物的无人机（UAV）避撞与控制的非线性模型预测控制（Nonlinear MPC）算法，核心逻辑是通过 “实时感知 - 未来预测 - 优化求解 - 执行控制” 的循环，实现无人机在动态障碍物环境下的安全航行，以下是分模块的简要解析：

核心概念与输入输出

核心技术：非线性 MPC（模型预测控制）
MPC 的本质是 “滚动时域优化”—— 不计算全局轨迹，而是在每个时刻基于当前状态，优化未来一段 “预测时域” 内的控制量，仅执行第一个控制量后，下一时刻重新迭代，适配动态环境。
输入（Input）：算法启动前需明确的初始条件与参数
- 无人机初始状态（SUAV (0)）：如位置、速度、姿态等；
- 动态障碍物初始状态（Cobstacles (0)）：如障碍物的初始位置、运动速度；
- 时间参数：预测时域 Tp（预测未来多久的状态）、控制时域 Tc（优化未来多少步的控制量）；
- 安全约束 C：如无人机与障碍物的最小安全距离、无人机自身的物理限制（如最大速度、加速度）。
输出（Output）：最优控制输入 u*
即无人机的执行指令（如电机转速、舵面偏转量等），需满足 “避撞” 与 “跟踪目标（如航点）” 的双重需求。
关键特点（适配 “动态障碍物” 与 “无人机控制”）

动态障碍物适配：通过实时测量 + 未来预测，主动规避障碍物的运动（而非仅考虑障碍物当前位置），适合如 “移动车辆”“其他无人机” 等动态场景；
非线性适配：明确标注 “Nonlinear MPC”，可处理无人机的非线性动力学模型（如无人机高速飞行时的空气阻力、姿态耦合等非线性特性），比线性 MPC 更贴合实际；
约束显式化：将 “避撞”“执行器极限” 作为硬约束写入优化问题，确保控制结果一定满足安全与物理限制，避免 “可行解不安全” 的问题。
总结一下（公式不太好打，直接说结论吧）：
前用的 PID 控制，就像 “看到歪了再调”—— 飞偏了才纠正，遇到突然冒出来的障碍反应不过来；而 NMPC 是 “提前预判 + 优化”，能更早发现要撞上障碍，调整动作也更平滑，既不会飞歪太多，也不会因为突然躲障碍而晃得厉害。实验里也验证了，用 NMPC 时，无人机的飞行轨迹更贴参考路线，位置误差小，遇到动态障碍（比如移动的车辆）也能躲开。

三 3D 实验平台的构建

3D 城市环境设计（3D Environment）

该模块构建了仿真平台的 “物理世界基础”，包含多类贴合真实城市的实体元素，确保无人机的视觉观测与空间认知场景具有真实性，具体元素分类如下：

元素类别	具体内容	设计意义
建筑实体	商场、住宅小区、公共设施、办公楼、宿舍、信号塔；建筑细节（屋顶太阳能板、外墙空调外机、大门、广告牌）	提供丰富地标（如广告牌、建筑外观），模拟无人机导航中需识别的视觉参照；建筑细节提升地标辨识度，避免 “同类建筑难以区分” 的问题
街道系统	车道、十字路口、交通信号灯、道路标线、自行车道	复现城市中 “需按规则导航” 的场景（如 “穿过十字路口左转”），匹配自然语言指令中的常见路况描述
动态元素	模拟车辆（按真实交通流规律行驶）、模拟行人（按日常行为移动）	为 NMPC 模块的 “动态避障” 功能提供测试场景，验证框架在移动障碍物环境中的鲁棒性
城市配套设施	街道家具（长椅、路灯、指示牌）、植被（树木、灌木、草坪）、城市便利设施（公交站、建筑入口、公共卫生间）	丰富环境细节，让视觉观测更贴近真实（如 “公交站旁的树木” 可作为辅助地标），同时模拟无人机可能遇到的非障碍类干扰元素
此外，该 3D 环境的核心优势在于 “高保真”—— 不仅 3D 模型精度高（如建筑外观纹理、设施比例还原真实），还支持实时数据整合（如动态元素的运动状态实时更新），且专门针对无人机仿真优化，能适配空中视角的观测需求（如建筑顶部细节清晰，便于无人机从高空识别地标）。

模块 2：VLN 模拟器开发（VLN Simulator）

开发基础：基于 AirSim 和 Unreal Engine 4 开发。
视觉观测：
- 智能体可在连续户外环境中自由移动与观测；
- 每一步可输出前视的 RGB 图像（vf）、深度图像（vp）及语义分割图像（vp）。
动作空间：
- 运动控制：可设置目标位置（[x,y,z]ᵀ）、目标速度（[u,v,w]ᵀ）、目标姿态（[0,ф,ψ,ψ]ᵀ）；
- 相机控制：支持视角调整；
- 其他控制：无人机飞行启停。
核心特点：与 TouchDown、R2R、RxR 不同，其为连续空间，模拟无人机可在环境内任意点连续飞行。

EXPERIMENT AND RESULTS

Experiment Setup

实验数据集：采用 “AVDN 数据集”（参考 [34]），该数据集为复杂城市场景设计，核心特征包括：
- 轨迹长度：平均路径长度 287m，覆盖城市中 “中长距离导航” 场景；
- 指令特点：高频词汇含 “destination（目的地）”“building（建筑）”“go（前往）”“fly（飞行）” 等，贴合真实导航指令的语言习惯（如图 6 的词云所示），可有效测试框架对自然语言指令的理解能力。
硬件与软件环境：
- 硬件：实验在搭载 Intel i9 12 代 CPU、NVIDIA GeForce RTX 4070 GPU 的笔记本上运行，满足模拟器与模型计算需求；
- 软件：基于 AirSim 与 Unreal Engine 4 搭建的 3D 实验平台（第四章构建），LLM 采用 GPT-4。
关键参数配置：
- 传感器参数：深度传感器感知范围设为 100 米（覆盖城市中高空观测需求），相机视场角设为 90 度（模拟无人机前置广角相机的观测范围）；
- 任务约束：与第三章一致，无人机默认仅使用前视视觉（RGB、深度、语义图），需旋转自身获取其他方向观测。

定量结果

通过对比 SkyVLN 完整模型与多类基线模型的核心指标，验证框架性能优势，核心指标为SPL（Success weighted by Path Length，路径长度加权成功率）与SR（Success Rate，成功率），前者兼顾 “成功抵达” 与 “路径效率”，后者反映任务完成能力：

对比模型设计：涵盖传统方法、LLM-based 方法、控制优化方法与消融模型，具体包括：
- 传统 / 基础方法：Random（随机动作）、CMA（跨模态对齐）、Seq2Seq（序列生成模型）；
- LLM-based 基线：NavGPT [6]（仅依赖 LLM 的导航模型）；
- 控制优化方法：w PID（PID 控制）、w MPC（传统 MPC 控制）、w NMPC（仅 NMPC 控制）；
- 消融模型：w/o HSD（去除高分辨率空间描述器）、w/o TMA（去除回溯记忆阵列）；
- 目标模型：Ours Full（SkyVLN 完整框架，含多模态感知、WPO、NMPC）。
核心结果（基于 AVDN 数据集，如表 I 所示）：
- 可见环境（Seen Validation）：Ours Full 与 w MPC 表现最优，SPL 均达 14%+、SR 均为 17.3%，证明完整框架在已知环境中能稳定匹配基线中最优的控制方法；
- 新环境（Unseen Validation/Testing）：Ours Full 优势显著，在最具挑战性的 “不可见测试集”（完全未接触的新场景）中，SPL 达 28.11%、SR 达 42.37%，远超其他模型 —— 如 NavGPT 的 SR 仅 16.6%，w NMPC 的 SR 仅 26.8%，w/o HSD/w/o TMA 的 SR 均低于 16%，证明 HSD（精准定位）与 TMA（历史回溯）的协同，让框架在新环境中泛化能力更强；
- 控制方法对比：NMPC 控制（w NMPC、Ours Full）的性能优于 PID 与传统 MPC，尤其在新环境中，w NMPC 的 SPL（22.4%）是 w PID（6.9%）的 3 倍以上，证明 NMPC 的动态避障与轨迹跟踪能力更适配复杂城市场景。
轨迹跟踪精度验证：对比 NMPC 与 AirSim 内置的 Simple Flight（PID 控制）的轨迹表现（如图 7、8 所示）：
- NMPC 的轨迹（黑线）更贴近参考轨迹（红线），X、Y 轴位置误差显著低于 PID；
- 姿态控制更稳定：NMPC 的横滚、俯仰、偏航角误差快速收敛至接近零，而 PID 误差波动大且持续，证明 NMPC 能更精准控制无人机姿态与位置，为导航成功提供基础。

定性分析（Qualitative Analysis）

通过具体导航场景展示 SkyVLN 的实际工作流程，验证框架 “理解指令 - 视觉匹配 - 动作执行” 的闭环能力，核心以图 9 为例：

任务指令：连续多步复杂指令 ——“穿过十字路口左转→沿街道右侧飞行（距建筑≥5 米）→下一个路口六楼送货→飞往粉色建筑大屋顶降落→返回起点”；
框架交互逻辑：
- 系统提示：定义无人机角色（“embodied UAV 助手”），限制其仅使用指定功能（如 get_position 查询物体坐标、fly_to 控制飞行）；
- 动作提示：明确指令与视觉观测的结合方式 —— 无人机基于深度图（测距离）、语义掩码（分实体类别）、第一视角图像（辨地标），调用 LLM 生成描述与动作代码；
执行结果：图中黄色轨迹为无人机实际飞行路径，方格旗为终点，可见无人机能按指令分步完成 “转向 - 避障 - 送货 - 降落”，且轨迹贴合指令要求（如 “沿街道右侧飞”“精准抵达粉色建筑屋顶”），直观证明框架对复杂指令的理解与执行能力。

消融研究（Ablation Study）

针对 LLM 选型展开测试，分析不同 LLM 对 SkyVLN 导航性能的影响（如表 II 所示），测试场景为 “不可见测试集”，核心指标含 SPL、SR 与 NE（Navigation Efficiency，导航效率，数值越小越优）：

测试模型：GPT-4V、GPT-4o、GPT-4 Turbo；
结果差异：
- 平衡最优：GPT-4V 表现最佳，SR 达 34.9%（最高）、NE 达 62.35m（最低），兼顾成功率与导航效率，是 SkyVLN 的优选 LLM；
- 路径效率高但成功率低：GPT-4o 的 SPL 达 34.25%（最高），但 SR 仅 20.44%、NE 达 90.11m，说明其能规划高效路径，但对 “指令 - 视觉匹配” 的准确性不足；
- 表现最差：GPT-4 Turbo 的 SR 仅 15.62%、NE 达 127.87m，路径探索冗余多，成功率低，证明 LLM 的语境理解与多模态对齐能力对框架性能至关重要。

总结

第 V 部分通过系统实验，从 “量化性能 - 实际场景 - 组件作用” 三方面验证了 SkyVLN 的有效性：

定量结果证明，相比传统方法与单一模块优化，SkyVLN 完整框架在新环境中导航成功率提升显著，鲁棒性更强；
定性分析展示了框架对复杂指令的处理能力，证明其 “视觉 - 语言对齐” 与 “动作控制” 的协同性；
消融研究明确了 LLM 选型、HSD、TMA 对框架的关键作用，为后续优化提供方向，同时也为 “视觉 - 语言导航在无人机领域的应用” 提供了可复现的实验基准。