当前位置：首页 > news >正文

浙大高飞团队新作：提出层级式探索框架，让「地空双模」机器人自主决策“飞”或“走”

news 2025/10/27 2:53:01

导读

在面对复杂未知环境的自主探索任务中，如何在有限的能源与时间条件下实现高效、全面的场景感知，一直是机器人研究中的重要难题。近期，浙大高飞老师团队一项关于“地空双模机器人”的研究给出了新答案。

相比传统单一形态的机器人，地空双模平台结合了地面机器人的持久续航与空中机器人的灵活机动，天然具备更强的环境适应能力。本文提出了一套层级式探索框架，利用双模机器人可切换的移动方式，在不同区域中灵活决策“飞”还是“走”，实现信息获取最大化。该系统首先提取环境中的关键信息区域，生成一系列具有潜力的观测位点，并通过一种改进的蒙特卡洛树搜索算法，在能源消耗与时间成本之间做出平衡，优化探索路径和模式选择。

研究不仅在仿真中取得了优异表现，还在真实搭建的机器人平台上完成了验证，展示了地空融合平台在高效自主探索中的巨大潜力。接下来，小编将带你深入了解这套系统的设计亮点与技术实现。

图1｜TABV 将地面与空中两种移动模式集成于单一平台，在自主探索任务中展现出显著的应用潜力。

论文出处：arXiv

论文标题：Autonomous Exploration with Terrestrial-Aerial Bimodal Vehicles

论文作者：Yuman Gao, Ruibin Zhang, Tiancheng Lai, Yanjun Cao, Chao Xu, and Fei Gao

自主探索在学术界与工业界持续受到关注，广泛应用于救援、工程测绘、隧道巡检等任务场景。近年来，研究者提出了多种探索策略，并将其部署在无人机（UAV）与地面机器人（UGV）上。然而，由于各类机器人的运动特性受限，其探索性能仍面临瓶颈：空中机器人虽具备高机动性与广阔视野，但续航时间短，不适合大范围长时间任务；而地面机器人在复杂崎岖地形中行动受限，主要适用于平坦开阔区域。为突破这些物理限制，部分研究尝试将UAV与UGV组合成协同系统，但多机器人协作引入了额外的SLAM、路径规划与协调难题，增加了系统复杂性。

针对上述问题，本文提出了一种基于地空双模机器人（TABV）的层级式探索框架。该平台集成了UGV的长续航与UAV的高机动性和宽视野于一体，具备极高的任务适应性。考虑到现实中的能量与时间限制（尤其在救援等任务中），作者设计了一个双模观测点生成模块，基于已知环境边界提出潜在的探索视角；接着引入一种自适应规划器，结合双模能力和任务约束，动态选择最合适的运动模式。文中进一步提出了一种新的“Bimodal Monte Carlo Tree Search（BM-MCTS）”算法，用于优化探索路径和模式选择顺序。最后，系统集成了增强版的运动规划器，支持地形感知与模式切换规划。

论文的主要贡献包括：

（1）提出了一个考虑能耗与时间限制的双模探索框架，具备两种视角覆盖策略与灵活的决策机制；

（2）设计了BM-MCTS算法，支持在任务约束下的信息驱动探索决策；

（3）将规划器与改进的运动规划模块整合，完成系统在仿真与真实平台上的部署验证。

图2｜全文方法总览

本研究旨在实现一个具备能量与时间意识的地空双模自主探索系统，目标是在未知但有边界的三维环境中，利用地空双模机器人（TABV）在电量和时间预算内尽可能高效地收集有价值的信息，并确保任务结束时能安全返回起点。系统追求的并非全覆盖，而是最大化信息获取与任务完成的安全性，非常适用于通信受限或灾后环境中的探索任务。

任务建模与系统流程概览

作者将探索过程建模为一个观测点（viewpoint）和运动模式（modality）联合选择的问题，旨在在电量和时间预算内最大化信息增益。为处理实际中的不确定性与资源限制，作者引入了一种惩罚函数机制，对超出预算的路径进行非线性惩罚，从而鼓励策略保留“冗余空间”，确保安全执行。

整个系统如图2所示，分为三个阶段：

1. 从环境中提取信息，生成候选观测点；

2. 通过改进的双模蒙特卡洛树搜索（BM-MCTS）确定探索路径；

3. 由双模运动规划器生成可行轨迹并控制执行。

信息提取与双模观测点生成

探索点的生成借鉴了“前沿探索”思路（见图2④-⑤），即优先探索已知区域边界附近的未知空间。作者提出两种覆盖策略：

● AS（纯空中策略）：仅利用空中视角对某一前沿簇进行观测；

● HS（混合策略）：优先从地面视角观察，若无法完全覆盖，再补充空中视角。

每个前沿簇会被分配一组候选视角（地面+空中），并通过贪心算法选出具有代表性的一组候选点。

此外，系统根据机器人在两点之间的距离、角度变化、速度上限等，估算不同模式下的时间和能耗开销。实际中，空中模式能耗是地面模式的7倍以上，速度虽快但受安全限制，故地面移动在能耗方面更具优势，而空中模式则在节省时间上更具潜力。

图3｜BM-MCTS 过程示意图

BM-MCTS：能量与时间感知的路径规划算法

作者将经典的蒙特卡洛树搜索（MCTS）扩展为BM-MCTS，用于在观测点和双模路径选择之间进行智能规划（见图3-5）。其核心包括：

● 树结构设计：每个节点代表一个观测点，并记录当前路径下的剩余能量和时间；

● 奖励设计：结合路径信息增益与终端成本，鼓励策略在获取更多信息的同时保留足够资源；

● 选择与扩展：基于上置信界（UCB）进行子节点选择，权衡探索与利用；

● 仿真阶段：引入旅行商路径启发，估算剩余路径的能耗与时间；

● 剪枝机制：若某路径剩余资源不足以返航，则剪枝以降低计算开销。

该算法在保持计算效率的同时，确保策略在约束条件下仍能做出灵活、信息增益最大的决策。

图4｜潜在子节点确定示意图示例。(a)：前沿簇 B 中视点 B1 的潜在子节点。如果某视点所属的簇已在当前路径中被展开，则禁止选择该簇中属于另一种模态的视点作为子节点。(b)：对应的蒙特卡洛树结构。每一条分支代表一个视点遍历序列

图5｜新扩展节点的引导路径生成示例。(a)：正在扩展的蒙特卡洛树，其中节点 A1 为新扩展节点，需进行模拟评估。(b)：节点 A1 的引导路径生成过程。在该示例中，A1 被选中用于覆盖簇 A，其从机器人当前位置 pr 到 A1 的路径首先被确定。随后通过求解分组旅行商问题（grouped TSP），得到遍历所有簇并返回起始点的完整引导路径。(c)：分组 TSP 的代价矩阵图示。紫色区域表示不可达连接（代价无限），绿色区域表示同组内连接（代价为零）

双模运动规划器

为了将BM-MCTS输出的目标点转换为可执行的运动轨迹，作者设计了一种地空融合的运动规划器，具备如下特点：

● 地形感知增强：通过在线地面分割动态识别可通行区域，不再假设固定地面；

● 模式自适应规划：前端根据任务目标选择地面或空中运动元件；后端则根据模式应用对应的动力学约束（如地面车辆的非完整约束）；

● 安全飞行设计：引入欧几里得距离场（ESDF）约束，确保靠近边缘时飞行安全，防止坠落；

● 全流程融合：最终构建一个具备完整闭环的自主探索系统，可部署在真实的TABV平台上运行。

图6｜层次化的双模态运动规划框架示意图。(a)：基于运动学-动力学约束的路径搜索前端；(b)：基于轨迹平坦性与微分约束的时空轨迹优化后端；(c)：非线性模型预测控制（NMPC）模块，用于计算目标电机转速。

为验证所提双模探索系统的实际效果，作者分别在多层仿真建筑环境与真实地下车库中进行了全面测试。实验聚焦三个核心问题：双模能力的使用策略、在不同资源约束下的适应性、以及规划算法的效率表现。

仿真测试：应对多层结构与资源限制

作者首先在一个两层的房屋场景中测试了双模机器人在能耗和时间预算下的探索策略。实验展示了四个阶段的探索行为演化：在起始阶段能量充足时，机器人优先采用飞行模式获取信息增益更高的视角；随着能量逐步下降，系统逐渐偏向地面模式以节省开销，并通过滚动穿越一层结构完成覆盖；最终，为完成剩余空中视角的探索任务，机器人再次起飞，并在能量耗尽前安全返航。这种灵活切换策略验证了 BM-MCTS 算法在多阶段任务中的动态调度能力。

图7｜本图展示了 TABV 在双层建筑场景中的探索过程与分析。(a) 是用于实验的双层房屋场景；(b) 展示了探索过程的四个阶段：阶段 01 中，TABV 通过飞行模式完成大厅的大部分探索；阶段 02 中，TABV 转为地面模式探索一楼平台，并随后飞至二楼；阶段 03 中，TABV 滚动覆盖二楼平台区域；阶段 04 中，TABV 飞行完成剩余大厅区域的探索并返回出发点。(c) 展示了用于路径估计的拓扑图；(d) 显示了 TABV 的双模态运动方式；(e) 为蒙特卡洛树第二层中空中与地面子节点的平均奖励差异；(f) 显示了随时间推移的覆盖率变化；(g) 展示了探索结束时 TABV 剩余的能量与时间。

资源适应性分析

在一组办公场景中，作者进一步探讨了系统在不同预算条件下的适应性。结果表明：当时间预算充足而能量有限时，机器人更偏向地面行驶；相反，在能量充裕但时间紧张的情况下，则倾向采用飞行模式以节省时间。此外，作者还分析了“剩余资源量”随预算调整的变化规律，进一步验证了 BM-MCTS 算法在动态权衡能耗与任务效率上的弹性。

图8｜仿真场景；(a)：带有0.5米高隔断墙的多房间场景；(b)：包含一系列预设视点的场景。

图9｜在不同能量与时间预算下系统的性能表现。(a)-(b) 展示了在不同预算条件下的探索结果：(a) 表示不同预算下地面与空中模式的时间占比，其中数值为地面时间与空中时间的比值；(b) 显示了探索完成时剩余的能量与时间情况。(c) 展示了不同迭代次数下的算法计算时间，以及对应的探索结束时的剩余能量与时间。