当前位置：首页 > news >正文

论文Review 激光实时动态物体剔除 DUFOMap | KTH出品！RAL2024！| 不上感知，激光的动态物体在线剔除还能有什么方法？

news 2025/10/16 12:49:09

基本信息

题目：DUFOMap: Efficient Dynamic Awareness Mapping

来源：IEEE ROBOTICS AND AUTOMATION LETTERS 2024

学校：KTH Royal Institute of Technology

是否开源：https://github.com/kth-rpl/dufomap

摘要：激光雷达实时动态物体剔除

现实世界的动态性是机器人学面临的主要挑战之一。处理它的第一步是检测世界的哪些部分是动态的。一个典型的基准任务是创建一个仅包含世界静态部分的地图来支持，例如定位和规划。当前的解决方案通常应用在后处理中，其中参数调整允许用户调整针对特定数据集的设置。在本文中，我们提出了一种新颖的动态感知映射框架DUFOMap，旨在实现高效的在线处理。尽管对所有场景都有相同的参数设置，但它的性能更好或与最先进的方法相当。光线投射用于识别和分类完全观察到的空洞区域。由于这些区域已经被观察到是空的，因此它们内部的任何东西在另一个时刻都必须是动态的。评估在各种场景下进行，包括KITTI和Argoverse 2的室外环境，KTH校园的开放区域，以及不同的传感器类型。

Introduction

点云是机器人中广泛使用的一种表示方法，通过激光雷达和深度相机等传感器获取。点云表达在其他领域也有应用，如测绘、建筑、建筑业等。

机器人技术中的许多核心部件都假设环境是静态的。当这一假设被打破时，机器人往往无法完成任务，或者至少效率下降。在路径规划中，动态物体可能被误解为环境结构的一部分，从而导致不必要的冗长或曲折的路径，甚至失败。静态地图中错误添加的动态物体或错误移除的部件也可能通过引入模糊特征或误导匹配过程来降低定位的鲁棒性。为了实现系统的健壮运行，需要对系统进行动态感知。如今，工业建图中的全局规划和定位化通常是在离线和人力监督下完成的。

动态物体引起问题的测量实例如图1所示。使用三维激光扫描仪( LeicaRTC360 )获取建成环境的点云模型。通过使用人工参考点对单个点云进行仔细对齐，可以创建精确的模型。这样的模型常被用作SLAM的地面真值模型[ Hilti-oxford dataset ]，[ Fusionportable ]。然而，正如在右上方所看到的那样，地图的质量因周围移动的人的存在而严重受损。

为此提出了几种方法。基于学习的方法需要训练数据，并且往往缺乏可解释性。相比之下，基于几何分析的方法，例如光线投射和可见性[ The peopleremover，Remove, then revert，ERASOR， 10 ]，往往不支持在线执行，因为它们依赖于用于差分计算的先验图，并且计算和内存昂贵。此外，它们往往需要为每个新的设置进行参数调优。

[10] Q. Zhang, D. Duberg, R. Geng, M. Jia, L. Wang, and P. Jensfelt, “A dynamic points removal benchmark in point cloud maps,” in IEEE 26th International Conference on Intelligent Transportation Systems (ITSC), 2023, pp. 608–614.

在某些情况下，实时地移除动态对象是很重要的。例如，地方规划不能仅仅依靠预定义的地图，因为在任务期间环境可能会发生变化。这种方法排除了依赖在任何清洗发生之前首先获取所有传感器数据来构建全局地图的方法。

在这项工作中，我们提出了DUFOMap，一种基于UFOMap [ 11 ]的动态感知方法。该方法的核心是对UFOMap体素结构中处理后的点云进行操作。Ray casting光线投射用于识别某些时刻为空的所谓空洞区域。然后通过寻找落入这些空洞区域的点来完成动态点的分类。需要特别注意定位误差和传感器噪声。DUFOMap既可以用于离线地图清洗，也可以用于动态点的在线检测。在离线模式下，最后基于所有空洞区域进行动态点的分类。

[11] D. Duberg and P. Jensfelt, “UFOMap: An efficient probabilistic 3D mapping framework that embraces the unknown,” IEEE Robotics and Automation Letters, vol. 5, no. 4, pp. 6411–6418, 2020.

我们在多个数据集、传感器和场景中进行了广泛的实验验证，表明了DUFOMap的通用性、计算效率和广泛的可用性。我们工作的主要贡献：

提出了一种检测动态的方法，通过在考虑传感器噪声和定位误差的情况下找到被观测到的部分空间。
我们的方法在不同场景和传感器的离线和在线场景中都取得了最先进的性能。
我们证明了我们的方法在使用相同设置的方法的三个参数的五个不同传感器的数据集上进行了实验。

Related Works

A. Learning-Based Methods

基于学习的方法，如点云中的detection和segmentation，通常涉及深度神经网络和有标记数据集的监督训练。一旦训练好，这些模型能够在给定相似传感器设置的真实世界场景中进行推理。

最近几年的方法【3、4】开发了新的框架，利用空间和时间信息来提取特征和检测动态点。这些方法有的使用点云格式，有的则选择将点云转化为不同的表示形式，如残差图像，以方便处理。【12】通过联合学习潜在空间表示和使用变分自编码器的聚类算法，提出了一种新的无监督点云分割方法。最后，【13】使用可微的光线投射将未来的占有率预测渲染成未来的激光雷达扫描预测进行学习，允许几何占有率地图将环境的运动与自我车辆的运动解耦。

[3] B. Mersch, X. Chen, I. Vizzo, L. Nunes, J. Behley, and C. Stachniss, “Receding moving object segmentation in 3d lidar data using sparse 4d convolutions,” IEEE Robotics and Automation Letters, vol. 7, no. 3, pp. 7503–7510, 2022.

[4] J. Sun, Y. Dai, X. Zhang, J. Xu, R. Ai, W. Gu, and X. Chen, “Efficient spatial-temporal information fusion for lidar-based 3d moving object segmentation,” in IEEE/RSJ International Conference on Intelligent Robots and Systems, 2022, pp. 11 456–11 463.

[12] S. Huang, Z. Gojcic, J. Huang, A. Wieser, and K. Schindler, “Dynamic 3d scene analysis by point cloud accumulation,” in European Conference on Computer Vision. Springer, 2022, pp. 674–690.

[13] T. Khurana, P. Hu, A. Dave, J. Ziglar, D. Held, and D. Ramanan, “Differentiable raycasting for self-supervised occupancy forecasting,” in European Conference on Computer Vision. Springer, 2022, pp. 353369.

尽管基于学习的方法很受欢迎，但它们面临一些挑战，包括需要大量有标签的数据集，在训练过程中处理不平衡的数据[ 14 ]，以及难以适应不同的操作条件(如传感器和环境)。此外，这些方法往往缺乏可解释性，使得在具体案例中难以指明表现不佳背后的确切原因。因此，鲁棒性和泛化性仍然是基于学习的方法共同关注的问题。

[14] Y. Zhang, Q. Hu, G. Xu, Y. Ma, J. Wan, and Y. Guo, “Not all points are equal: Learning highly efficient point-based detectors for 3d lidar point clouds,” in IEEE Conference on Computer Vision and Pattern Recognition, 2022.

B. Geometric Analysis Methods

几何分析方法不需要标注数据。划分这些方法(如)的一种方法是光线投射和基于可见性的方法。在所有数据获得后进行操作的方法之间可以进行另一种区分，因此，仅限于离线使用和可以在线检测动态点(如果剔除是任务,就将其移除)的方法。

最流行的两种后处理方法是Removert和ERASOR及其后续的ERASOR2 [ 15 ]。它们首先从所有的点云构建地图，因此仅限于离线操作。Removert [ 8 ]在每次查询扫描的位置将地图投影成范围图像。通过对比查询和地图范围图像，利用投票的方式，基于可见性约束找到动态点。为了减少误报，使用降低分辨率的距离图像将动态点还原为静态点。

[15] H. Lim, L. Nunes, B. Mersch, X. Chen, J. Behley, H. Myung, and C. Stachniss, “ERASOR2: instance-aware robust 3d mapping of the static world in dynamic scenes,” in Robotics: Science and Systems (RSS 2023). IEEE, 2023.

为了解决当射线与地面之间的夹角较小时，导致地面点误标记的挑战，Lim等人[ ERASOR ]通过假设动态物体在地面上来检测动态点。他们比较了查询扫描和地图之间区域的最小和最大z值之间的比值。如果比值大于一个阈值，那么这个区域包含动力学，并且它们移除完整的bin。这种设计使得该方法对传感器的高度非常敏感，以及定义最小和最大高度范围的参数。因此，每个新的场景通常需要一组不同的参数。此外，该方法与树木等悬垂物体进行斗争，如图2所示。

占据栅格，如OctoMap [ 16 ]和UFO Map，使用光线投射更新三维网格中体素的占位值。这导致了对每个体素随时间被占用的概率的估计。落入占有率高于某个阈值的单元格的点被认为是静态的。离线和在线操作都是可能的。对于在线执行，在获取该点时进行该点的分类。

[16] A. Hornung, K. M. Wurm, M. Bennewitz, C. Stachniss, and W. Burgard, “OctoMap: An efficient probabilistic 3D mapping framework based on octrees,” Autonomous Robots, 2013.

截断符号距离场( TSDF )是占据栅格的替代。与我们最接近的工作是Dynablox[ 17 ]，它使用Voxblox [ 18 ]来构建一个TSDF。所谓的"everfree"区域是通过在连续数据更新期间对体素的TSDF值设置阈值来确定的。它将动态检测为落入这些"永远自由"区域的点。Dynablox[ 17 ]在滑动窗口中在线运行。

[17] L. Schmid, O. Andersson, A. Sulser, P. Pfreundschuh, and R. Siegwart, “Dynablox: Real-time detection of diverse dynamic objects in complex environments,” IEEE Robotics and Automation Letters, vol. 8, no. 10, pp. 6259 – 6266, 2023.

[18] H. Oleynikova, Z. Taylor, M. Fehr, R. Siegwart, and J. Nieto, “Voxblox: Incremental 3d euclidean signed distance fields for on-board mav planning,” in IEEE/RSJ International Conference on Intelligent Robots and Systems, 2017.

C. Summary

几何分析和基于学习的方法都有其优势和局限性。鲁棒性和泛化性是基于学习的方法中普遍存在的问题；最重要的是，它们需要大量预先标记的训练数据集，这可能是劳动密集和耗时的创建。最先进的几何分析方法通常是离线操作的，因此可以承受每个场景中可能需要变化的参数。我们提出的方法，DUFOMap，是为在线动态感知映射设计的，其中针对不同场景的参数调整是不可能的，但正如将证明的那样，优于离线方法。

Method

DUFOMap 是一种用于动态点云映射的方法，它是 UFOMap [11] 的扩展，旨在从点云数据中区分静态和动态点。该方法的核心思想源于早期工作 [19]，即不是直接识别动态区域，而是识别空间中的“空洞区域”（void regions）。关键点是：如果一个区域在某个时间被观察为空，那么在另一个时间出现在该区域内的点必须是动态的。DUFOMap 将世界离散化为体素（voxels），每个体素包含一个标志位 $i_{void}$ ，表示该体素是否至少被观察为空一次。初始时， $i_{void}$ 为 false；当体素被观察为空时，设置为 true。点被分类为静态或动态时，只需检查对应体素的 $i_{void}$ 标志：如果为 true，则点是动态的，否则是静态的。

输入假设为传感器位姿（位置和方向）和点云对（如图 3(a) 所示）。点云没有结构假设，支持非重复扫描模式。方法分为三个主要部分：分类空洞区域、处理真实世界问题，以及分类点为动态或静态。

[19] M. Lindstrom and J.-O. Eklundh, “Detecting and tracking moving objects from a mobile platform using a laser range scanner,” in IEEE/RSJ International Conference on Intelligent Robots and Systems, vol. 3. IEEE, 2001, pp. 1364–1369.

A. Classifying Void Regions

与占用栅格（occupancy grids）不同，占用栅格使用概率模型累积所有观察来更新区域状态，可能在自由和占用之间切换。DUFOMap 从单个点云观察中分类空洞区域，这允许快速分类，但需小心避免误分类。

每个体素从单个点云中被分类为空洞，如果它至少被完全观察为空一次。具体步骤：

从传感器位置向每个点云点进行射线投射（ray casting）。
射线投射后，体素有三种状态（见图 3(b)）：
- 击中（hit，灰色）：如果点落在体素内。
- 相交（intersected，紫色）：如果射线穿过体素但无点落在内。
- 未知（unknown，白色）：否则。
候选空洞体素是那些相交状态的体素。
然而，单一射线相交并不保证整个体素被观察到。为此，检查邻域体素：在 3D 中检查 26 个邻域体素（2D 中 8 个，如图 3 和 4 所示）。如果所有邻域体素均为相交或击中状态，则该体素被视为“完全观察到”，从而分类为空洞（图 3(b) 中红色）。
点云体积边界处的体素无法确认为空洞，因为它们邻近未知体素。

B. Dealing With the Real World

真实世界中，传感器噪声和定位误差是挑战。

定位准确性问题：假设传感器位姿给定，但如果位姿偏移（例如图 4(a) 中真位姿比估计位姿高一个体素），则击中和相交体素会偏移，导致空洞分类错误。标记的“x”表示在真位姿下会改变状态的体素。
- 解决方案：不仅仅检查直接邻域，还检查 Chebyshev 距离为 $d_p$ 的周围体素，其中 $d_p$ 与定位误差成比例。例如，设置 $d_p=2$ （图 4(b)），这导致更保守的空洞分类（无法分类击中附近的体素为空洞）。
- 进一步处理：将击中后的任何体素也视为击中（图 4(c)），通过从原始射线结束处插入额外击中来扩展射线投射。最终空洞分类如图 4(d) 所示。
传感器噪声问题：沿射线在击中前方距离 $d_s$ 的体素标记为击中。 $d_s$ 可基于传感器范围不确定性；在工作中使用固定值。

C. Classifying Points as Dynamic or Static

DUFOMap 的主要计算与空洞区域分类相关，每次新点云到达时执行一次。点分类只需快速查询地图：如果点落在空洞体素（ $i_{void}$ = true）中，则动态，否则静态。这可作为后处理步骤，利用所有信息。在实验中，DUFOMap 使用所有扫描构建地图进行分类；DUFOMap⋆ 是在线版本，使用截至当前时间的地图分类每个新扫描。

图 3 示例（3D 网格的单片）：

(a) 从传感器位置（左三角）向每个点（橙点）投射射线（橙线）。相交体素为紫色，击中为灰色，未知为白色。
(b) 被相交且完全包围于相交或击中体素的体素分类为空洞（红色）。

图 4 示例（处理更大定位误差）：

(a) 真位姿（绿色）偏移，导致误分类（x）。
(b) 增加邻域检查到 $d_p=2$ ，更保守分类。
(c) 扩展击中以允许障碍物附近空洞分类。
(d) 最终分类。

实验

硬件平台

硬件包括桌面级 (Intel Core i9-12900KF) 和机器人级 (Intel NUC i7-8559U)

数据集

KITTI、Argoverse 2 [22]

[22] B. Wilson, W. Qi, T. Agarwal, J. Lambert, J. Singh, S. Khandelwal, B. Pan, R. Kumar, A. Hartnett, J. K. Pontes, D. Ramanan, P. Carr, and J. Hays, “Argoverse 2: Next generation datasets for self-driving perception and forecasting,” in Neural Information Processing Systems Track on Datasets and Benchmarks, 2021.

Benchmark

Removert [8]、ERASOR [9]、OctoMap [16] 和 Dynablox [17]。采用后处理模式（DUFOMap vs. 前三个方法）和在线模式（DUFOMap⋆ vs. Dynablox）

metric

评估指标包括静态准确率 (SA %)、动态准确率 (DA %) 和关联准确率 (AA % = √(SA × DA))，强调在静态和动态点分类上的平衡

A. 定量评估（Quantitative Evaluation）

准确性 (Accuracy)：

Table I 结果分析：DUFOMap 在大多数数据集上表现出色，AA 最高，SA 和 DA 均衡高。Removert SA 高 (静态点分类好)，但 DA 低 (20–40%)，难以检测动态点。ERASOR 和 OctoMap DA 较高，但 SA 稍低，可能丢失地图特征。DUFOMap 在 KITTI 小镇 (序列 00) 和高速公路 (序列 01) 上 SA 和 DA 均高，生成完整清洁地图。在 Argoverse 2 上，DUFOMap AA 第二 (SA 最高，但 DA 稍低)，可能是由于数据集动态物体持续移动和长距离导致的保守分类。
- 在线模式下，DUFOMap⋆ 比 DUFOMap 差 (因无未来数据)，但在动态复杂度低的 KITTI 小镇上性能下降最小。Dynablox 在 Argoverse 2 上最佳 (适合持续移动物体)，但在半室内数据集 DA 低 (因需时间窗口检测运动，而人有时静止，如图 5(d))。所有方法在稀疏 LiDAR (半室内，16 通道) 上性能较低，DUFOMap 通过噪声和定位建模缓解此问题。
- 项目页面补充：DUFOMap 在所有 KITTI 序列 (除一个外) 上动态移除性能最高，Table I 显示其在动态移除上的整体优势；Table II 针对不同传感器设置的数据集，DUFOMap SA 和 DA 高，支持下游任务的清洁地图。
总体发现：DUFOMap 在各种场景和传感器 (HDL-64E、VLP-32C、16 通道 LiDAR) 上一致优于其他方法，AA 最高，证明其泛化性和鲁棒性。
执行时间 (Execution Time)：
- Table II 结果分析：报告总处理时间除以点云数量，焦点在于支持在线模式的三个方法 (OctoMap、Dynablox、DUFOMap)。OctoMap 最慢 (KITTI 单帧 3 s)，不适合实时。稀疏 LiDAR (半室内) 上，所有方法更快 (点少、范围短)。DUFOMap 在密集 (64 通道 KITTI 高速公路) 和稀疏设置上均优于其他，射线投射是主要计算瓶颈。
  - 在机器人硬件 (Intel NUC) 上，DUFOMap 在半室内数据集保持 20 Hz (范围减至 20 m)，Dynablox <10 Hz，证明其实时适用性。
- 项目页面补充：Table III 和图 5 提供运行时分解，射线投射最耗时；DUFOMap 在密集和稀疏传感器上均领先，强调计算效率。

B. 定性结果（Qualitative Results）

定性分析扩展到额外数据集，如 MCD VIRAL [23] (Leica RTC360 激光扫描仪)、DOALS [27] (128 通道 LiDAR，火车站)、Livox Mid-360 [24] (两层建筑)、KTH 校园开放区域，以及项目页面的 RGB-D 数据集。使用相同参数设置，展示泛化。

半室内环境 (Fig. 5)：两人围绕传感器移动。ERASOR 难以设置高度阈值，留下头部/脚部点。OctoMap 在稀疏 LiDAR 上有问题 (射线穿透地面，导致环状间隙)。Dynablox DA 低 (黄色点少，橙色假负多)。DUFOMap 最佳，通过噪声 (ds) 和定位 (dp) 建模准确识别空洞，避免地面错误并高精度分类动态/静态点。
高度动态复杂环境 (Highly Dynamic and Complex Environments)：
- DOALS 数据集 (Fig. 6)：火车站高度动态，DUFOMap 生成清洁地图，移除复杂动态物体。
- 两层建筑 (Fig. 7)：挑战高度/地面假设方法，DUFOMap 有效移除动态点。
调查传感器数据集 (Survey Sensor Dataset)：
- Leica RTC360 (Fig. 1)：处理离散位置、高密度点云 (1.3M/扫描 vs. 0.1M)，垂直视场大 (300° vs. 30°)。OctoMap 概率模型样本少失效；ERASOR 固定高度阈值不适应高度变化；Dynablox 不处理非序数据。DUFOMap 移除动态点 (如学生行走)，下左图聚类不同物体；项目页面有完整视频展示过程。

C. 姿势估计影响（Influence of Pose Estimation）

Table III 结果分析：使用三种姿势源：KITTI 基准真值、SemanticKITTI (SuMa [25]) 和 KISS-ICP [26]。所有方法受姿势影响：姿势差导致场景更“动态”，SA 下降。KISS-ICP 在短序列上最准 (SA 最高)，SuMa 次之，KITTI 真值最差。证明姿势准确性对静态分类关键，DUFOMap 在准姿势下表现最佳。