清华北大西工大!具身导航最新综述
作者: Yunhao LIU, Li LIU, Yawen ZHENG, Yunhuai LIU, Fan DANG, Ningbo LI1, Ke MA
单位:清华大学,北京大学,西北工业大学
论文标题:Embodied navigation
出版信息:Sci China Inf Sci, April 2025, Vol. 68, Iss. 4
论文链接:https://link.springer.com/article/10.1007/s11432-024-4303-8
主要贡献
系统性综述:对具身导航(embodied navigation)领域的研究进行了系统和全面的综述,涵盖了感知、导航、效率优化以及具身导航所支持的任务等关键方面。
理论基础与技术:详细阐述了具身导航的理论基础,包括传统导航的理论基础、感知空间的定义及其与物理空间的等距性质等,为后续研究提供了坚实的理论支撑。
挑战与发展方向:识别出在现实世界中部署具身导航系统所面临的挑战,如真实世界适用性、多智能体协作、生物启发神经架构以及安全和隐私问题,并将其扩展到更广泛的领域,为未来的研究指明了方向。
介绍
研究背景
导航的重要性:导航是现代信息应用系统中的一个基本组成部分,广泛应用于军事、交通、物流和探索等领域。传统的导航系统基于绝对坐标系统,提供精确的物理世界地图、移动对象的位置以及优化的导航路线。
新兴应用的需求:近年来,许多新兴应用对导航提出了新的需求。例如,在水下/地下导航中,没有 GPS 或其他定位系统可用;在未探索的区域,没有地图可供使用;以及任务导向的导航,没有特定的路线。这些场景需要导航系统能够与物理世界进行交互,以获取局部地图、定位对象并优化导航路线。
物联网和人工智能的推动:物联网(IoT)和人工智能(AI)的进展使得设计新的导航范式成为可能,即具身导航(embodied navigation)。这种导航方式允许移动对象通过与物理世界的交互来实现导航。
研究目的
系统性综述:本文旨在对具身导航的研究进行全面和系统的回顾,涵盖感知、导航和效率优化等关键方面。
新兴任务的探讨:除了这些技术进展外,文章还探讨了具身导航支持的新兴任务,这些任务需要在多样化和不断变化的环境中灵活移动。
挑战与发展方向:文章识别了在现实世界中部署具身导航系统所面临的挑战,并将其扩展到更广泛的领域。论文希望通过该文章为这一快速发展领域提供有价值的见解,促进未来的研究,填补现有差距,推动通用自主系统的发展。
研究内容概述
感知:感知是导航系统的基础,涉及使用多种传感器和感知方式来感知和解释周围环境。感知部分将细分为几何感知(理解环境的空间布局和结构)和语义理解(识别环境中的对象和场景,并推理它们之间的关系)。
导航:导航包括代理在复杂环境中导航的动作规划和运动控制过程。文章将探讨各种导航方法,这些方法反映了研究人员在引导代理通过物理环境以实现特定目标时所采用的多样化策略。
效率优化:为了满足复杂导航任务的性能要求,同时考虑到许多导航系统所面临的资源限制,针对具身导航的专门效率优化是必不可少的。文章将讨论延迟优化、能效优化和鲁棒性提升的策略。
具身导航支持的任务:随着具身导航能力的提升,一些需要在多样化和不断变化的环境中灵活移动的新兴任务得以实现。文章将回顾具身导航支持的具体任务,包括自动驾驶、通用助理机器人、仿生应用的导航以及微观环境中的导航等。
感知
理论基础
传统导航的理论基础
地图绘制:传统导航依赖于地图,地图的创建涉及多种技术,如圆柱投影、墨卡托投影、摄影测量、遥感以及地理信息系统(GIS)。这些技术用于生成精确的地理信息,为导航提供基础。
定位技术:利用三角测量技术确定移动代理在地图上的位置。常见的定位技术包括全球定位系统(GPS、北斗、GNSS等)、差分全球定位系统(DGPS)、基于地标和锚节点的定位、以及基于信号到达时间(ToA)、到达时间差(TDoA)和到达角度(AoA)的三角测量。
路径规划:基于地图和实时位置信息,利用图论技术规划移动代理的运动路线。常见的优化目标包括最短路径、最大流量、最小成本和最快路线。
感知空间
感知空间的定义:感知空间是由移动代理的传感器数据构成的向量空间。这些数据包括无线信号强度、加速度计、陀螺仪和相机图像等多模态数据。
感知空间的性质:感知空间是一个完整的范数向量空间,即巴拿赫空间。它与物理世界一致,并且可以通过定义范数函数 (D) 与物理空间 (R^3) 保持一致的度量。
感知子空间的等距性:存在一个感知子空间,它与物理空间 (R^3) 是等距的。这意味着可以通过一个距离保持映射函数 (f),将感知空间中的点映射到物理空间中,从而实现导航。
几何感知
几何感知的目标是重建环境的几何结构,并获取代理或导航目标的几何位置。
同时定位与建图(SLAM)
SLAM 的定义:SLAM 是指代理在未知环境中同时构建地图并定位自身的实时过程。它允许代理在没有预先制作的地图或基础设施的情况下自主导航。
- SLAM 的子过程:
里程估计:通过分析一系列输入数据来实现局部地图构建和定位。根据传感器类型,可以分为视觉里程估计、激光雷达里程估计、无线电里程估计和惯性里程估计。
回环检测:检测代理是否回到了之前访问过的地方,以优化地图构建和定位精度。
后端优化:利用前端模块提供的数据关联关系,通过最大后验概率(MAP)或最小二乘法优化代理的状态和地图坐标。
SfM
SfM 的定义:SfM 是一种从一系列无序的图像帧中重建环境几何结构的技术。它更注重重建精度,适用于大规模环境的重建。
SfM 的特点:与 SLAM 相比,SfM 对重建时间的要求较宽松,因此可以实现更高精度的重建,并且可以用于更大规模的环境。
自定位
自定位的定义:在已知环境中,代理通过匹配传感器数据与预先构建的地图来定位自身。这种地图可以由 SfM 或其他代理的 SLAM 程序预先构建。
自定位的方法:根据使用的传感器类型,自定位方法可以分为视觉方法和 WiFi 方法。视觉方法通过图像特征匹配和几何求解器来估计代理的位置,而 WiFi 方法则利用 WiFi 信号的几何约束或指纹库进行定位。
目标定位
目标定位的定义:目标定位的目标是确定导航目标的位置,以便代理能够导航至目标。这在目标被遮挡或环境中存在相似物体时尤为重要。
目标定位的方法:根据目标位置信息的传递方式,目标定位方法可以分为基于音频的方法和基于 RFID 的方法。音频方法利用目标发出的声音信号进行定位,而 RFID 方法则通过 RFID 标签的无线信号来确定目标位置。
语义理解
语义理解的目标是为环境中的不同区域和对象分配有意义的标签,从而为代理提供更丰富的环境信息。
语义标注
语义标注的定义:语义标注是指将图像中的每个像素分类为有意义的类别。这使得代理能够理解场景布局、识别对象,并区分可导航和不可导航区域。
语义标注的方法:最初主要使用基于卷积神经网络(CNN)的方法,但随着 Transformer 架构的发展,目前主流方法已转向利用 Transformer 进行语义分割。Transformer 在捕捉长距离依赖和上下文信息方面表现出色。
语义关系
语义关系的定义:语义关系是指识别和理解环境中不同实体之间的关系,从而优化导航效率。
语义关系的方法:通过结合贝叶斯关系记忆、图卷积网络(GCN)和 Transformer 架构等技术,代理能够理解对象之间的空间布局和典型放置位置,从而在复杂环境中实现更有效的导航。
超语义
超语义的定义:超语义是指通过整合多种传感器数据(如视觉、听觉和语言)来创建更全面的环境语义特征。
超语义的方法:包括视觉与语言导航(VLN)、音频信息的利用以及多模态语义融合。这些方法通过结合不同模态的信息,使代理能够更好地理解和执行复杂任务。
导航
几何方法
几何方法依赖于构建和更新环境的空间表示,以实现导航。这些方法主要关注地图和拓扑图的创建与优化,通过精确的空间理解来指导代理的运动。
基于地图的导航
地图构建:通过传感器数据动态构建详细的地图,这些地图可以是占据网格(occupancy grids),也可以是包含语义信息的地图。
路径规划:利用地图进行路径规划,常见的算法包括 A* 算法和 D* 算法。A* 算法结合了 Dijkstra 算法和最佳优先搜索,能够高效地找到最短路径;D* 算法则允许实时更新地图和路径,适应动态环境。
SLAM 框架:SLAM(框架允许代理在未知环境中同时构建地图并定位自身,这对于自主导航至关重要。
最新进展:近年来,基于地图的导航方法不断演进,例如 Stubborn 方法通过语义无关的探索策略和多尺度碰撞地图来解决探索和目标识别中的关键挑战;PONI 方法利用势函数将导航问题分解为可管理的组件,降低计算需求;Georgakis 等人提出了一种主动学习框架,通过选择训练样本最大化信息增益,提高导航效率。
基于图的导航
图表示:将环境表示为节点和边的网络,节点对应关键位置或地标,边表示可导航路径。
导航策略:代理通过在图中跟随路径进行导航,基于节点之间的连接关系做出决策。这种方法在大型和复杂环境中特别有效。
早期研究:Kuipers 的 TOUR 模型是早期基于图的导航研究之一,它通过节点和边的网络构建认知地图,为人类在大规模空间中的导航提供了理论基础。
最新进展:Thrun 和 Bücken 提出了一种结合网格和拓扑图的方法,通过神经网络和贝叶斯融合构建网格地图,然后生成拓扑图。GCN(图卷积网络)的引入进一步提升了基于图的导航方法,通过处理图结构数据,提取丰富的关系信息,优化导航策略。例如,Kiran 等人利用空间关系图和 GCN 实现了更有效的目标导向导航。
基于学习的方法
基于学习的方法利用机器学习技术,使代理能够通过与环境的交互学习最优的导航策略。这些方法强调代理的适应性和从经验中学习的能力。
强化学习与模仿学习
强化学习:通过试错学习最大化累积奖励,代理在环境中探索并根据奖励信号调整行为策略。
模仿学习:通过模仿专家的行为来学习导航策略,通常需要大量的专家演示数据。
最新进展:Chaplot 等人提出的 SemExp 方法通过构建语义地图,利用语义先验和长期记忆实现高效导航;Ye 等人通过引入辅助任务和探索奖励,提高了目标导向导航的性能;Ramrakhya 等人开发的 Habitat-Web 框架利用众包数据收集大规模人类演示,通过模仿学习提升导航策略的鲁棒性和泛化能力。
视觉语言模型与大型语言模型
视觉语言模型(VLMs):结合视觉处理和自然语言理解,使代理能够理解和执行复杂的指令。
大型语言模型(LLMs):利用预训练的大型语言模型,如 GPT-3 和 BERT,处理自然语言指令,为导航提供决策支持。
最新进展:Majumdar 等人提出的 ZSON 方法利用 CLIP 模型实现零样本导航,使代理能够理解并导航到用自然语言描述的目标;Zhou 等人提出的 NavGPT 方法利用 GPT-4 的推理能力处理复杂的视觉-语言导航任务;Huang 等人提出的 VLMaps 方法结合 VLMs 和 LLMs,通过视觉语言嵌入和指令处理提高导航精度。
导航方法对比
几何方法的优势:准确的空间理解、高效的路径规划。
几何方法的劣势:有限的语义理解、实时更新地图的计算成本高。
学习方法的优势:灵活、适应性强、能够处理复杂任务、利用丰富的语义先验。
学习方法的劣势:需要大量的训练数据、计算成本高。
具身导航的效率优化
延迟优化
延迟优化的目标是确保具身导航系统能够在严格的时间预算内完成任务,这对于安全和高效的导航至关重要。
适应性计算
适应性计算通过动态调整计算资源分配来满足导航任务的实时需求。具体方法包括:
模型调度(Model Scheduling):MCDNN 通过优化编译器和运行时调度器,实现多个深度神经网络(DNN)模型在移动和云设备上的高效执行。
资源感知(Resource-aware):NestDNN 引入了一种独立于云连接的设备端自适应深度学习框架,考虑运行时资源的变异性,为移动视觉系统提供资源感知的 DNN 模型。
模块化模型扩展(Modular Model Scaling):LegoDNN 提出了一种基于模块的 DNN 模型扩展方案,适用于在移动设备上运行多个 DNN 工作负载。
模型弹性化(Model Elastification):AdaptiveNet 提出了一种创新的 DNN 架构弹性化方法,能够在部署后适应不同的计算需求。
并行处理
利用多处理器和专用硬件加速器(如 CPU、GPU 和 NPU)来分配计算任务,从而实现更快的处理和响应时间。具体方法包括:
多分支结构(Multi-branch Structures):NN-Stretch 通过将传统的单分支模型转换为多分支结构,优化了深度学习模型在异构多处理器上的执行效率。
事件驱动算法(Event-driven Algorithms):BioDrone 通过 FPGA 实现的事件过滤(CEF)和事件匹配(LEM)算法,利用并行计算显著降低了延迟。
操作融合技术(Operator Fusion Techniques):DNNFusion 通过先进的操作融合技术和高效的代码生成,减少了内存压力,提高了 DNN 模型的执行效率。
通信优化
对于依赖远程服务或与其他代理通信的导航系统,高效的通信是保持低延迟的关键。具体方法包括:
边缘计算(Edge Computing):EdgeSLAM 通过计算卸载策略和自适应任务调度算法,实现了实时 SLAM 导航,减少了对云服务的依赖。
数据压缩与选择性传输(Data Compression & Selective Transmission):CoEdge 通过批量处理传感器输入和聚合推理结果,提高了数据传输效率。
紧凑环境表示(Compact Environment Representation):VILAM 通过提取和传输静态环境的紧凑表示,减少了数据量,确保了实时通信和定位。
能效优化
能效优化的目标是提高导航任务的能效,这对于无人机和移动机器人的长续航任务至关重要。
复杂环境与障碍
路径规划算法需要不断适应环境变化,这通常是计算密集型和能耗密集型的。具体挑战包括:
动态环境适应性:算法需要实时更新路径,以应对动态环境中的障碍物和变化。
计算效率:传统的基于网格地图或采样方法的路径规划算法可能不够节能,需要优化以减少能耗。
算法效率
许多传统路径规划算法没有明确考虑能耗,需要改进以提高能效。具体方法包括:
混合进化算法(Hybrid Evolutionary Algorithms):结合遗传算法和 Q-learning,优化无人机的速度和与障碍物的距离,从而提高路径规划的能效。
深度强化学习(Deep Reinforcement Learning):利用深度 RL 算法,如多智能体路径规划方案,最小化无人机完成任务的总能耗。
实时处理
在动态环境中实现实时处理和能效优化是一个挑战,需要先进的计算技术和专用硬件。具体方法包括:
贝叶斯方法(Bayesian Methods):通过建模道路段的能耗,优化导航路径,减少能耗。
多智能体协作(Multi-agent Collaboration):在无人机网络通信中,通过多智能体协作优化路径规划,提高能效。
鲁棒性提升
鲁棒性是指代理在面对环境变化和传感器噪声时,仍能保持导航性能的能力。
适应环境变化
数据增强与自监督适应(Data Augmentation & Self-supervised Adaptation):通过数据增强和自监督学习,提高代理在不同视觉和动态条件下的鲁棒性。
测试时适应(Test-time Adaptation):在测试阶段对模型进行在线更新,以适应未知部署环境。例如,FSTTA 方法通过快速更新和慢速更新的交替,平衡了适应性和稳定性。
提高传感器可靠性
对抗性攻击与防御(Adversarial Attacks & Defense):研究传感器数据的对抗性攻击,开发防御策略以提高传感器的可靠性。例如,通过轨迹注意力模块检测对抗性攻击,提高代理对攻击的鲁棒性。
多模态感知(Multi-sensory Perception):通过整合多种传感器数据,提高代理在复杂环境中的感知能力。例如,利用音频-视觉事件识别任务来验证多模态对抗攻击,并提出基于音频-视觉不相似性约束和外部特征记忆库的防御策略。
具身导航使能任务
自动驾驶
具身导航在自动驾驶领域具有重要的应用价值,能够使车辆在动态环境中进行实时感知和决策,从而实现安全高效的自主导航。
动态环境感知
多模态传感器融合:自动驾驶车辆通常配备多种传感器,如摄像头、激光雷达(LiDAR)、毫米波雷达等。通过融合这些传感器的数据,车辆可以更全面地感知周围环境,包括道路状况、交通标志、其他车辆和行人等。
实时数据处理:具身导航系统需要对传感器数据进行实时处理,以快速识别潜在的危险并做出相应的决策。例如,通过深度学习算法对摄像头图像进行实时分析,识别交通信号和障碍物。
路径规划与决策
动态路径规划:具身导航系统能够根据实时感知的信息动态调整路径规划,以应对交通拥堵、道路施工等突发情况。例如,利用强化学习算法优化路径选择,提高导航效率。
安全决策:在自动驾驶中,具身导航系统需要做出安全决策,如避让行人、遵守交通规则等。通过结合语义理解,车辆可以更好地理解交通场景,从而做出更合理的决策。
通用助理机器人
通用助理机器人需要在复杂环境中自主导航,以完成各种任务,如家务劳动、物品搬运和环境监测等。
导航与操作
任务扩展:具身导航使机器人能够在不同环境中导航至目标位置并进行操作,如在家庭环境中清理桌面、在工厂中搬运货物等。例如,TidyBot 利用 LLMs 推断用户偏好,将 85% 的物品正确放置到指定位置。
零样本学习:OK-Robot 展示了 VLMs 在家庭环境中零样本任务中的潜力,利用预训练模型进行物体检测和导航,成功率为 58.5%。这表明开放知识模型可以增强机器人在未见过的任务中的操作能力。
策略执行:SayCan 引入了新的可执行性函数,将 LLM 生成的指令与环境中的可操作性相结合,根据当前条件评估行动的可行性,从而提高机器人导航和操作的灵活性和适用性。
内省推理:Inner Monologue 通过让机器人进行内省推理来提高任务规划和执行的准确性,使机器人能够持续评估其行动和环境条件,从而在动态和不可预测的环境中更准确地完成操作任务。
代码生成:Code-as-Policies (CaP) 框架利用 LLMs 为机器人任务生成策略代码,解决了预定义技能的局限性。通过解释自然语言指令并生成可执行代码,CaP 使机器人能够适应新任务和环境,减少数据收集需求。
导航与问答
环境理解:机器人通过导航与问答系统相结合,能够提供与环境相关的上下文信息。例如,Das 等人提出的 Embodied Question Answering (EQA) 任务,要求 AI 代理在 3D 环境中导航,根据第一人称视觉回答关于周围环境的问题。
交互性增强:Gordon 等人引入的 Interactive Question Answering (IQA) 模型,使代理能够与环境交互,如开门或移动物品,以获取以前无法到达的区域或隐藏信息,从而扩展了代理可以回答的问题范围。
多目标处理:Yu 等人提出的 Multi-Target Embodied Question Answering (MT-EQA) 模型,允许代理处理涉及同一环境中多个目标的问题,通过比较不同空间位置的信息,代理能够执行更复杂的导航任务并回答更广泛的问题。
多模态融合:PaLM-E 是一个先进的多模态语言模型,它将视觉数据和连续传感器读数与语言模型无缝集成,从而增强机器人的决策和导航能力,使机器人能够更好地理解和回答与环境相关的问题。
仿生导航
仿生机器人通过模仿生物的运动和感知能力,能够在复杂环境中高效导航。
仿生鱼
深海探索:仿生鱼能够承受深海的极端压力,利用其灵活的运动机制在深海环境中进行探索和采样。例如,受深海鱼类启发的软体机器人能够在深海中自主操作,其分布式电子系统增强了抗压能力。
环境适应性:未来,结合先进的具身导航技术,仿生鱼有望实现更自主、高效的深海探索,执行深海采矿和环境监测等复杂任务。
仿生昆虫
高效导航:仿生昆虫机器人通过模仿昆虫的运动和感知机制,能够在复杂环境中高效导航。例如,BHMbot 是一款能够实现超快速无束缚奔跑的无线遥控机器人,其模仿昆虫的腿部运动机制,使其能够在狭窄空间中灵活移动。
低功耗设计:通过模仿昆虫的感官机制,如利用气流压力进行导航,这些机器人能够在不增加过多功耗的情况下提高导航性能。未来的研究可能会进一步提高这些昆虫级机器人的自主性和鲁棒性,使其能够执行基础设施检查、环境监测和精准农业等任务。
多环境机器人
环境适应性:多环境机器人能够在不同环境中灵活切换,如陆地和水下。例如,受乌龟启发的机器人能够在陆地和水中切换,其自适应形态使其能够在两种环境中顺利过渡。
任务多样性:这些机器人能够执行多种任务,如环境监测和灾难响应。未来的发展可能会使这些机器人配备更先进的传感器和自适应系统,进一步提高其在多样化环境中的操作能力。
形态变化机器人
形态适应性:形态变化机器人能够根据任务需求改变自身形态,如抓取和移动。例如,受章鱼和蠕虫启发的软体机器人能够通过改变形态来执行多种任务。
复杂任务执行:这些机器人能够在复杂环境中执行任务,如在管道中移动。例如,一种受蠕虫启发的软体机器人能够在直径小于一厘米的管道中移动,其利用介电弹性体执行器进行推进和锚定,能够适应各种管道几何形状,包括 L 形、S 形和螺旋形管道。未来的研究可能会提高这些机器人的适应性和多功能性,使其能够在搜索和救援等任务中发挥重要作用。
微观环境导航
微观环境导航主要涉及在微观尺度上操作的机器人,这些机器人能够在狭窄空间中灵活移动,并执行高精度任务。
医疗治疗
微创手术:导航增强的微型机器人能够实现微创手术和靶向药物输送,提高治疗效果并减少对周围健康组织的损伤。例如,Schmidt 等人研究了用于癌症治疗的靶向药物输送系统,这些微型机器人可以在外部磁场的引导下到达肿瘤部位。
体内运输:微型机器人能够在复杂的血管系统中导航,运输激素等物质。例如,Dekanovsky 等人研究了在体内靶向运输激素的微型机器人,这些机器人可以在外部磁场和实时成像技术的引导下导航。未来的研究可能会集中在将导航与实时跟踪、自适应系统和先进推进机制相结合,以提高微型机器人在医疗治疗中的性能。
水体污染物处理
污染物去除:导航技术可以增强微型和纳米机器人系统在水体污染物处理中的有效性。例如,温度响应型磁性纳米机器人可以利用磁性推进和热敏感聚集高效去除水中的砷和阿特拉津,具有高回收率和可重复使用性。
生态友好解决方案:光驱动的纳米/微电机利用紫外线推进,显著提高了对纳米塑料的捕获和降解效率,无需化学燃料,提供了一种环保的解决方案。如果将导航技术进一步整合到这些系统中,有望在水净化领域实现更精确的控制和更强的适应性。
结论与未来工作
结论:具身导航在近年来取得了显著进展,但在真实世界适用性、多智能体协作、生物启发神经架构以及安全和隐私等方面仍面临挑战。这些挑战需要进一步的研究来解决,以推动该领域的发展。
- 未来工作:未来的研究方向包括但不限于:
真实世界适用性:需要更多的研究来缩小模拟环境和真实世界之间的性能差距,包括开发更有效的 Sim2Real 方法和建立真实世界的评估基准。
多智能体协作:探索多智能体系统中的协作算法,特别是在通信受限和异构智能体环境下的协作机制。
生物启发神经架构:研究如何将生物神经系统的特性映射到具身智能体的感知、学习和行为中,以实现更自然和安全的交互。
安全和隐私:加强具身导航系统的安全性,同时保护用户隐私,特别是在数据收集和处理过程中。