CVPR-2025 | 端到端导航智能体的推理能力探究:动态系统学习、规划能力与记忆使用

作者:Steeven Janny, Hervé Poirier, Leonid Antsfeld, Guillaume Bono, Gianluca Monaci, Boris Chidlovskii, Francesco Giuliari, Alessio Del Bue, Christian Wolf
单位:Naver实验室(欧洲),意大利理工学院,意大利布鲁诺凯斯勒基金会
论文标题:Reasoning in visual navigation of end-to-end trained agents: a dynamical systems approach
论文链接:https://arxiv.org/pdf/2503.08306
项目主页:https://europe.naverlabs.com/research/publications/reasoning-in-visual-navigation-of-end-to-end-trained-agents/
主要贡献

通过大规模实验研究,展示了智能体在快速移动的真实机器人导航任务中,通过端到端训练所学到的动态系统模型、感知与规划能力,以及这些能力如何相互作用以实现有效的导航。
通过在模拟环境中引入标准化的干扰,量化了智能体在面对动态模型参数变化和观测噪声时的性能变化,揭示了智能体对不同因素的依赖程度。
通过训练一个探测网络来从智能体的隐藏状态预测局部占用地图,证明了智能体的内部记忆能够存储关于场景结构和已探索区域的信息,这对于导航任务至关重要。
通过对智能体的价值函数进行分析,以及将其与专家规划器进行比较,发现智能体在一定程度上能够进行短期到中期的规划,并且其价值估计与长期规划相关联。
研究背景

机器人导航领域的进展:随着计算机视觉和强化学习技术的发展,机器人导航领域取得了显著进展,尤其是在模拟环境中。然而,将这些技术从模拟环境迁移到真实环境中仍然是一个挑战,因为真实环境中的机器人需要处理复杂的动态行为和感知不确定性。
端到端训练的导航智能体:近年来,端到端训练的导航智能体在模拟环境中取得了突破性进展,这些智能体能够直接从视觉输入映射到动作输出,而无需显式的建图和规划模块。然而,对于这些智能体在真实环境中的行为和推理能力,尤其是它们如何处理动态行为和感知信息,仍然缺乏深入的理解。
预备知识
研究基础与方法

研究基础:本研究基于 Bono 等人的工作,使用 PPO(近端策略优化)算法在模拟环境中训练导航策略。研究聚焦于真实环境中快速移动智能体的点目标导航任务,特别强调从模拟到现实(sim2real)的迁移能力。
实验设置:智能体在每个时间步接收 RGB 图像 和类似 Lidar 的范围向量 作为观测输入,并输出动作 以到达相对于起始位置的极坐标目标位置。实验中使用了四个 RealSense 深度传感器来收集范围数据。
动作空间:动作空间是离散的,包含 28 种可能的动作,每种动作对应一对线性速度和角速度命令。
定位信息:智能体接收两种定位信息:基于轮式编码器的积分里程计 和基于 ROS/AMCL(自适应蒙特卡洛定位)的 1D-Lidar 定位 。这两种定位信息都相对于起始位置提供估计的当前位置和速度。
训练方法:使用 PPO 算法进行训练,智能体的隐藏状态 是一个两层 GRU 的隐藏状态,输入通过专用编码器进行处理,包括 ResNet-18 处理 RGB 图像、1D-CNN 处理范围数据等。训练目标是让智能体能够从视觉输入直接输出导航动作。
实验环境与评估指标

模拟环境:使用 Habitat 模拟器进行训练,通过识别真实机器人的物理参数,将真实运动模型集成到模拟器中,使模拟器能够模拟真实机器人的动态行为。
真实环境:在真实环境中,使用 Rookie 机器人进行实验,评估智能体在真实场景中的导航性能。
评估指标:使用成功率(SR)、路径长度加权成功率(SPL)和成功加权完成时间(SCT)来评估智能体的导航性能。这些指标分别衡量智能体到达目标的成功率、路径效率和完成任务的时间效率。

端到端智能体是否学习了动态系统?
动态系统学习的假设
假设:端到端训练的导航智能体是否能够学习到一个动态系统模型,用于预测其未来的状态,并通过感知输入进行校正。这种预测-校正步骤类似于卡尔曼滤波器的工作方式,智能体在预测步骤中利用内部动态模型进行开环预测,在校正步骤中利用感知输入进行闭环校正。
输入与模型敏感性分析
方法:通过在模拟环境中引入标准化的干扰,量化智能体对动态模型参数变化和观测噪声的敏感性。具体来说,研究者修改了动态模型的阻尼比、响应时间和最大速度,同时在观测输入中引入高斯噪声,观察智能体性能的变化。

结果:
动态模型敏感性:智能体对动态模型参数的变化表现出显著的敏感性,尤其是对响应时间和阻尼比的变化。这表明智能体在导航过程中依赖于其内部的动态模型。
观测输入敏感性:智能体对观测输入(如里程计和 Lidar 数据)的噪声也表现出较高的敏感性,表明智能体在导航过程中依赖于感知信息来进行状态校正。
动态模型预测能力的探测
方法:训练一个探测网络,从智能体的隐藏状态 预测未来姿态 。研究者训练了两种变体:一种是线性模型,另一种是包含目标和前一动作信息的线性模型。

结果:
线性模型:在短期到中期的时间范围内,线性模型能够以较低的误差预测未来姿态,表明智能体的隐藏状态中包含了动态模型的信息。
包含目标和前一动作的线性模型:这种模型的预测误差更低,表明目标和前一动作信息有助于提高预测精度。
动态模型的自回归预测
方法:研究者进一步探索了智能体是否能够通过其内部动态模型进行自回归预测,即在没有未来观测输入的情况下,利用其隐藏状态进行未来状态的预测。
结果:虽然自回归预测的结果不如包含目标和前一动作的线性模型精确,但仍然能够以一定的精度预测未来姿态,表明智能体的隐藏状态中确实包含了动态模型的信息。

动态模型的鲁棒性训练
方法:受到 RMA(快速运动适应)方法的启发,研究者训练了一个新的策略,该策略能够在训练过程中随机采样环境参数的变化,从而适应这些变化。
结果:通过在训练中引入环境参数的变化,智能体能够更好地适应这些变化,提高了其在面对动态模型参数变化时的鲁棒性。
结论
结论:端到端训练的导航智能体确实能够学习到一个动态系统模型,用于预测其未来的状态,并通过感知输入进行校正。这种预测-校正步骤类似于卡尔曼滤波器的工作方式,表明智能体在导航过程中能够有效地利用动态模型和感知信息。
意义:这一发现对于理解端到端训练智能体的内部工作机制具有重要意义,也为进一步优化和改进这些智能体提供了理论基础。
端到端训练是否导致规划能力的出现?
研究问题
端到端训练的导航智能体是否能够通过强化学习(RL)训练获得规划能力,即使其架构中没有显式的规划模块。
方法与实验
探测未来姿态:通过训练一个探测网络,从智能体的隐藏状态 预测未来姿态 。低预测误差表明智能体能够利用其内部动态模型和潜在的规划信息。
价值函数分析:分析智能体在训练过程中学习到的价值函数,观察其是否与长期规划相关联。
与专家规划器比较:将智能体的导航轨迹与基于 Fast Marching Square 方法的专家规划器产生的轨迹进行比较,评估智能体的规划质量。

结果与结论
探测未来姿态的结果:探测网络能够以较低的误差预测未来姿态,表明智能体的隐藏状态中包含了短期到中期的规划信息。
价值函数分析的结果:价值函数的变化与智能体的策略变化相关联,表明智能体在一定程度上能够进行长期规划。例如,当智能体放弃一条路径选择另一条路径时,价值函数会显著变化。
与专家规划器比较的结果:智能体的轨迹与专家规划器的轨迹在某些情况下具有相似性,尤其是在瓶颈区域(如门口)附近。然而,智能体在某些复杂区域(如狭窄通道)的表现不如专家规划器。
结论:端到端训练的导航智能体确实能够通过 RL 训练获得一定程度的规划能力,尽管这种规划能力可能不如专家规划器精确,但足以支持其在复杂环境中的导航任务。



智能体是否使用情景记忆?
研究问题
端到端训练的导航智能体是否使用情景记忆(episodic memory)来存储和利用场景结构和探索信息,以支持其导航任务。
方法与实验
记忆消融实验:定期清零智能体的隐藏状态 ,观察其对导航性能的影响。
占用图预测:训练一个探测网络,从智能体的隐藏状态 预测局部占用图,评估智能体是否能够存储场景结构信息。
结果与结论
记忆消融实验的结果:定期清零隐藏状态会导致智能体的导航性能显著下降,表明智能体依赖于其隐藏状态来存储和利用导航相关信息。
占用图预测的结果:探测网络能够准确预测局部占用图,表明智能体的隐藏状态中存储了场景结构和探索信息。
结论:端到端训练的导航智能体确实使用情景记忆来存储和利用场景结构和探索信息,这对于其导航任务至关重要。
不同观测类型的敏感性
研究问题
端到端训练的导航智能体对不同类型的观测输入(如 RGB 图像、Lidar 数据、里程计数据等)的依赖程度如何,以及这些输入对导航性能的影响。
方法与实验
Shapley 值分析:基于合作博弈论的 Shapley 值分析,评估不同输入模态对导航性能的贡献。
视觉定位实验:将基于 Lidar 的定位输入替换为基于视觉的定位输入,评估其对导航性能的影响。
结果与结论




Shapley 值分析的结果:智能体对里程计和 Lidar 数据的依赖程度最高,而对 RGB 图像、定位信息和前一动作的依赖程度较低。
视觉定位实验的结果:基于视觉的定位输入在导航性能上不如基于 Lidar 的定位输入,尤其是在精确停止方面表现较差。
结论:端到端训练的导航智能体对不同类型的观测输入具有不同的敏感性,其中里程计和 Lidar 数据对导航性能的贡献最大。尽管视觉定位在某些情况下可以替代 Lidar 定位,但其性能仍有待提高。
结论与未来工作
结论:
端到端训练的导航智能体在真实环境中展现出了有效的导航能力,它们能够学习到动态系统模型、感知信息和规划能力,并且这些能力相互作用以实现导航任务。
智能体的内部记忆能够存储关于场景结构和已探索区域的信息,这对于导航任务至关重要。此外,智能体在一定程度上能够进行短期到中期的规划,并且其价值估计与长期规划相关联。
未来工作:
尽管端到端训练的导航智能体在真实环境中展现出了有效的导航能力,但它们在长期规划和高精度运动规划方面仍然存在局限性。
未来的工作可以探索如何进一步提高智能体的长期规划能力,以及如何将几何基础模型等技术与端到端训练相结合,以进一步提升导航性能和泛化能力。

