当前位置: 首页 > news >正文

论文学习——The Hilti SLAM Challenge Dataset

论文学习——The Hilti SLAM Challenge Dataset

    • 标题:Hilti SLAM挑战数据集
      • 一、引言
      • 二、相关工作
      • 三、硬件
        • A. 被动视觉
        • B. 主动光学
        • C. 惯性传感器
        • D. 地面真值系统
        • E. 数据同步和记录
      • 四、数据集
        • A. 地下室
        • B. 校园
        • C. 建筑工地
        • D. IC办公室
        • E. 实验室
        • F. 办公室Mitte
        • G. 停车场
        • H. RPG跟踪区域
        • I. 数据集格式
        • J. 挑战
      • 五、Hilti SLAM挑战
      • 六、已知问题
      • 七、结论
      • 八、致谢
      • 参考文献

论文下载地址链接

标题:Hilti SLAM挑战数据集

作者:Michael Helmberger({}^{1}), Kristian Morin({}^{1}), Beda Berner({}^{1}), Nitish Kumar({}^{1}), Giovanni Cioffi({}^{2}), Davide Scaramuzza({}^{2})

摘要
近年来,同步定位与地图构建(SLAM)研究取得了显著进展。SLAM系统正从学术研究过渡到实际应用。然而,这一转变在精度和鲁棒性方面提出了新的挑战。为了开发能够应对这些挑战的新SLAM系统,需要包含先进硬件和真实场景的新数据集。我们提出了Hilti SLAM挑战数据集。该数据集包含办公室、实验室和建筑环境的室内序列,以及建筑工地和停车场的室外序列。这些序列的特点是缺乏特征区域和光照条件变化,这些是现实场景中的典型挑战,对在实验室环境中开发的SLAM算法提出了巨大挑战。每个序列都提供了毫米级的精确稀疏地面真值。用于记录数据的传感器平台包括多个视觉、激光雷达和惯性传感器,这些传感器在空间和时间上进行了校准。该数据集的目的是促进传感器融合研究,以开发能够在高精度和鲁棒性要求较高的任务中部署的SLAM算法,例如在建筑环境中。许多学术和工业团体在Hilti SLAM挑战中测试了他们的SLAM系统。本文总结了挑战的结果,表明该数据集是开发可部署于现实世界的新SLAM算法的重要资源。

关键词:SLAM、地图构建、定位、传感器融合。

补充材料
数据集以及Hilti SLAM挑战的相关信息可在以下网址获取:https://www.hilti-challenge.com。挑战的结果也在以下视频中进行了展示:https://www.youtube.com/watch?v=3qqTGmSkrY&t=685s


一、引言

近年来,SLAM研究取得了显著进展[1]。从演示性应用到现实世界应用的转变正在发生。SLAM在建筑工地的自主机器人应用中具有广阔前景。建筑机器人可以消除工人的危险,提高任务效率,并收集高质量的数据[2]。然而,这些环境给SLAM系统带来了许多挑战。缺乏特征的场景、变化的光照条件和突然的运动是主要挑战之一。

将SLAM算法部署到现实世界应用中揭示了当前系统的局限性。这些局限性正在通过学术研究,通常与工业合作伙伴的合作来解决[3]。我们相信,学术界与工业界的合作有潜力加速开发能够满足高精度和鲁棒性要求的新SLAM系统。

在这一阶段,包含相关场景和传感器的数据集的可用性起着重要作用。这些场景应描绘SLAM系统部署的实际应用场景。正如机器人社区在多项工作中所展示的[4, 5, 6],通过融合多个互补传感器可以实现最高的精度和鲁棒性。因此,SLAM数据集应包含多种传感器模态。

过去几年中,许多SLAM数据集被提出[7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18],每个数据集在多个传感器的可用性和场景及运动类型方面都有特定的贡献。大多数数据集[7, 9, 12, 13, 14, 15, 16, 17]专注于视觉和惯性数据,而只有少数[8, 10, 11]还提供了激光雷达数据。根据环境和运动的类型,每个数据集对SLAM提出了不同的挑战。在无人机(UAV)上记录的视觉和惯性数据[7, 17]由于快速运动给视觉惯性里程计(VIO)和SLAM系统带来了困难。自动驾驶场景中记录的数据集[8, 9, 19]的主要挑战是变化的光照条件和移动物体。手持传感器平台记录的数据集[10, 11, 12, 14, 15]的主要挑战是突然的运动、低纹理以及动态光照条件。

我们提出了Hilti SLAM挑战数据集。该数据集的目的是促进传感器融合研究,以开发能够在高精度和鲁棒性要求较高的任务中部署的SLAM算法,例如在建筑环境中。我们的数据集包含建筑工地、办公室和实验室的室内序列,以及建筑环境和停车场的室外序列(如图2所示)。这些序列的特点是缺乏特征区域和光照条件变化,这些是现实场景中的典型挑战,对在实验室环境中开发的SLAM算法提出了巨大挑战。通过运动捕捉系统(MoCap)或全站仪[20]提供了毫米级的精确地面真值。为了记录数据,我们创建了一套传感器,包括多个视觉、激光雷达和惯性传感器,使用了最新的商用传感技术,并特别关注时间同步和空间校准。通过使用冗余传感器,该数据集还可以直接比较不同环境中的传感器性能,这对SLAM系统的设计具有参考价值。通过该数据集,我们旨在推动关于鲁棒的室内定位、地图构建和导航的研究,特别是应用于建筑环境。

该数据集被用于Hilti SLAM挑战,许多学术和工业团体提交了他们的SLAM系统。挑战的结果总结在第五部分,表明该数据集是开发可部署于现实世界的新SLAM算法的重要资源。

总结来说,Hilti SLAM挑战数据集的主要贡献包括:

  • 在室内办公室和实验室、室内外建筑环境以及室外停车场中记录的真实世界序列,包含具有挑战性的无特征区域和变化的光照条件。
  • 包含5个摄像头(1个立体对)、2个激光雷达和3个IMU的传感器套件,具有精确的空间和时间校准。
  • Hilti SLAM挑战。许多学术和工业团体使用该数据集进一步开发他们的SLAM系统并参与Hilti SLAM挑战竞赛。

二、相关工作

在众多用于基准测试SLAM和VIO系统的数据集中,[7, 18, 9]与Hilti SLAM挑战数据集最为相关。许多数据集[7, 9, 12, 13, 14, 15, 16, 17]专注于视觉和惯性数据。数据集[7, 17]提供了硬件同步的视觉(来自立体相机)和惯性数据,这些数据是在无人机上记录的。由于快速运动,它们对SLAM算法提出了挑战,其中[17]包含了最激进的机动动作。对于这两个数据集,地面真值是通过解决包含视觉、惯性和激光跟踪器数据的束调整问题生成的。在[7]中,一些序列提供了运动捕捉系统的地面真值数据。数据集[12, 14, 15]提供了使用手持传感器平台记录的视觉和惯性数据。在这些数据集中,传感器平台包括一个立体相机和一个IMU。此外,立体RGB相机在[12, 15]中也可用。[12]中的地面真值是通过定位到沿轨迹放置的基准标记获得的。[15]和[14]中的轨迹起点和终点的地面真值分别通过基准标记的姿态对齐和使用运动捕捉系统获得。[13]提出了一个包含广泛场景的大型(30个序列)模拟数据集。[18]中的数据集包括来自事件相机、标准相机和IMU的数据。它旨在激励研究人员研究事件相机在SLAM中的应用。[8, 9, 16]中的数据集包含在自动驾驶和地面机器人导航场景中记录的数据。它们都包括RGB相机和IMU。[8]中的数据集是用于基准测试自动驾驶中SLAM系统的最常用数据集之一。它还包括激光雷达数据。这些数据集的地面真值由惯性导航系统(INS)和全球导航卫星系统(GNSS)提供。[11]中提出的数据集是[10]的扩展,与我们的数据集最为接近。它包含在大学校园中记录的序列。传感器平台包括4个摄像头、1个激光雷达和2个IMU。地面真值通过将激光雷达点云注册到先验地图的迭代最近点(ICP)算法[22]提供。与[11]不同,我们的数据集提供了来自Hilti PLT 300自动全站仪或运动捕捉系统的毫米级精确地面真值。事实上,我们数据集的重点是提高SLAM在精度方面的最新水平,最终目标是开发能够实现毫米级精度的系统,以满足建筑环境中的要求。


三、硬件

我们的传感器套件(“Phasma”杆,图1)由3类不同范围和噪声水平的传感模态组成。这些包括:

A. 被动视觉

Sevensense的Alphasense
视觉数据由一组刚性安装的1.3 MP全局快门摄像头收集。该模块由5个宽视场摄像头组成,安装后提供约270度的连续视场。在此配置中,存在一个立体对。图像以10 Hz的频率同步收集。虽然Alphasense可以以更高的帧率捕获,但这样做将需要使用较低的分辨率。由于该数据集旨在实现最大精度,因此选择了较高的分辨率。

B. 主动光学

Ouster OS0-64
长距离点云数据由360度扫描的激光雷达传感器收集。该单元的扫描重复频率为10 Hz,点数据速率为1,300,000点/秒。范围记录从0.3到50米,典型的最低噪声返回大于1米。范围精度为1.5-5厘米。

Livox MID70
该单元是一个具有70度圆形视场和非重复扫描模式的激光雷达传感器。点数据速率为100,000点/秒。范围记录从0.02到200米,典型返回在1到50米之间。范围精度为2-5厘米。

C. 惯性传感器

Analog Devices ADIS16445
该IMU刚性安装在AlphaSense模块上。它是一个高性能的MEMS传感器,具有相对较低的噪声和传感器偏差漂移率。该IMU的数据与AlphaSense计时系统紧密时间戳同步。数据以800 Hz的频率收集。

Bosch BM1085
该IMU嵌入在AlphaSense模块中。它在噪声和偏差稳定性方面提供了适度的性能水平。该IMU的数据与AlphaSense计时系统紧密时间戳同步。数据以200 Hz的频率收集。

InvenSense ICM-20948
该IMU嵌入在Ouster激光雷达中。它在噪声和偏差稳定性方面提供了比ADIS16445更适度的性能水平。该IMU的数据与Ouster计时系统紧密时间戳同步。数据以100 Hz的频率收集。

D. 地面真值系统

为了测试和验证,使用了两个系统来捕获地面真值:

全站仪
一个测量级的棱镜附着在Phasma杆上,由Hilti PLT 300自动全站仪跟踪。地面真值数据以“停走”方式收集,全站仪在“停”期间精确测量棱镜。在收集每个地面真值测量之前,使用机械系统将杆重力对齐。全站仪的距离和角度测量结果被处理以生成XYZ位置信息。在这种情况下,静态棱镜的距离测量精度为3毫米。

光学跟踪
光学跟踪目标附着在Phasma杆上。当在运动捕捉空间中操作时,多个目标允许直接计算6自由度姿态。这些地面真值数据点的位置精度小于1毫米,并以200 Hz的频率收集。

E. 数据同步和记录

在动态多传感器系统中,传感器之间的时间同步对于充分利用传感器融合至关重要。为了确保最佳性能,我们对Phasma杆的同步进行了特别关注:

AlphaSense、Bosch IMU和ADIS IMU
AlphaSense通过FPGA实现在硬件级别管理时间同步。相机时间计算到中曝光脉冲(MEP)。IMU数据在到达FPGA数据总线时进行时间标记。相机和IMU之间的总体时间同步小于1毫秒。

Ouster激光雷达和Invensense IMU
Ouster模块包括一个集成的IMU。Ouster点数据和IMU与Ouster内部时钟硬件同步。两个传感器之间的时间同步小于1毫秒。

跨模块同步
模块(AlphaSense、Ouster、Livox)之间的同步由支持的PTP网络时间协议[23]提供。每个模块通过有线以太网电缆连接到数据记录设备,该设备托管PTP主时钟。通过此设置,模块之间的时间对齐观察到小于1毫秒,如图3所示。为了验证,我们采用了[24]中的方法,并使用优化工具对陀螺仪数据的相关信号进行了分析。

数据记录发生在连接到Phasma杆的专用计算机上。记录计算机运行Ubuntu 18.04操作系统,在数据捕获期间运行机器人操作系统(ROS)。传感模块连接到数据记录器,数据流直接记录在ROS包文件中。


四、数据集

数据是在各种条件下收集的,包括室内、室外和混合室内外环境。数据展示了建筑不同阶段的实际挑战。挑战包括变化的照明、有限的特征和/或高度反射和透明的表面。

A. 地下室

数据在一个无窗的房间(约20x40米)中收集。没有自然光,混合照明亮度。混凝土空间,有建筑基础设施。地下室1是一个短而简单的路径。在地下室3和地下室4中,我们将传感器平台安装在移动底座上,而不是手持操作。地下室3和4还允许利用SLAM系统的闭环能力。

B. 校园

数据在一个庭院环境(约40x60米)中收集。良好的自然光照,高亮度。混合特征,有建筑结构和自然植物。

C. 建筑工地

主要是室外,有一些覆盖区域(约40x80米)。强烈的自然光,高亮度。未完成的自然表面,地面平面上方特征有限。

D. IC办公室

有许多窗户和反射表面的室内空间(约10x70米)。混合自然光和人工光。窗户处光照强烈,室内光照适中。

E. 实验室

以大窗户为主的室内空间(约10x10米)。强烈的自然光和反射表面。Optitrack 6自由度地面真值。

F. 办公室Mitte

在完成的办公楼中的室内空间(约30x50米)。混合自然光和人工光。大量建筑结构。

G. 停车场

混合室内和室外空间(约100x100米)。从顶层到底层的停车场。照明从极亮到适度黑暗不等。顶层有地面平面结构,底层有大量建筑结构。

H. RPG跟踪区域

室内测试设施(约30x30米)。主要是人工光,有一些自然光。单个大房间,随机运动路径。MoCap 6自由度地面真值。

I. 数据集格式

数据集以二进制格式(rosbags)存储,包含图像、IMU和激光雷达数据。对于Livox的数据,选择了一个自定义消息,因为它包含比标准ROS PointCloud2消息更多的定时信息。图4显示了来自实验室调查2数据集的相机和激光雷达数据的示例。每个数据集的地面真值数据在一个单独的文件中给出,文件名指示参考源(例如,Construction_Site_prism.txt表示地面真值在棱镜框架中)。所有包中的主题列在表II中。

J. 挑战

本节包括我们数据集中包含的挑战示例,并强调了多传感器融合的必要性。在序列地下室4中,当Phasma设备在房间中心时,激光雷达里程计算法A-LOAM[27]的特征跟踪数量保持较高(每帧约1000个),但当设备接近墙壁或近距离悬垂物时,特征跟踪数量显著减少,见图5左。在这种情况下,A-LOAM估计的轨迹精度受到负面影响。然而,激光雷达特征跟踪的减少可以通过视觉特征的增加来补偿,见图5右。在这种情况下,融合相机和激光雷达测量的算法可以实现最佳性能。


五、Hilti SLAM挑战

所提出的数据集被用于Hilti SLAM挑战,该挑战的第一版在2021年IEEE/RSJ IROS会议上举行。学术和工业团体提交了他们的SLAM算法解决方案,并在数据集的所有序列上进行了测试。参与者可以访问一半序列的地面真值。另一半用于评估(类似于KITTI[8]中的做法)。计算了一个依赖于精度的分数来对团队进行排名:在将估计轨迹与地面真值进行SO3对齐[37]后,每个点得分在10到0分之间:误差小于1厘米得10分,1厘米到10厘米之间得6分,误差高达1米得3分。选择这种格式而不是基于RMSE计算排名,因为这样可以考虑不完整或缺失的轨迹,否则会扭曲排名。阈值的选择基于我们的用例,需要亚厘米级的精度。总共有27个团队参加了挑战,其中有7家商业公司,见表III。前四名由商业算法获得,这些算法都专注于激光雷达-IMU里程计,显示了这些方法的成熟性和鲁棒性。最佳团队Megvii使用了FAST-LIO2[28]的变体,并在所有序列上实现了9.3厘米的平均误差。Megvii是少数几个合并了Ouster和Livox激光雷达数据的团队之一,这使他们在状态估计中使用了所有激光雷达点,从而获得了显著优势。融合视觉、激光雷达和惯性的最佳算法排名第五,由牛津机器人研究所的VILENS[30]获得。最佳纯视觉解决方案排名第12,大多数误差大于50厘米。结果表明,商业算法优于学术算法,这一点并不令人意外。然而,在挑战之前,确切的差距并不清楚。结果还表明,仍有改进的空间,因为获胜团队没有融合相机数据。表III显示了团队及其方法的概述(选择保持匿名的团队未在表中显示)。


六、已知问题

尽管数据收集实验经过精心设计和执行,但我们意识到一些问题,这些问题对SLAM算法提出了额外的挑战,并限制了可实现的精度。这些问题包括:

  • 时钟漂移和偏移:MoCap和数据记录计算机的时钟未硬件同步。我们使用以太网连接和到达时间戳来将偏移保持在最小,但我们观察到两个时钟之间存在约1-3毫秒的差异。
  • 部分帧丢失:由于控制器负载过高,激光雷达、相机和IMU数据中的一些帧丢失。

七、结论

在本文中,我们描述了一个新的公共数据集,该数据集使用包含视觉、惯性和激光雷达数据的冗余多传感器平台捕获。该数据集包括使用最先进的传感技术和高精度时间同步收集的一系列真实世界场景。我们的目标是促进SLAM研究,推动当前最新技术的发展,使SLAM系统能够在精度和鲁棒性要求较高的现实世界应用中部署,例如建筑机器人。该数据集被用于Hilti SLAM挑战。挑战的结果展示了当前SLAM算法的能力,包括学术界和工业界的算法,以及潜在的改进,例如多传感器融合。


八、致谢

我们感谢新加坡南洋理工大学的Danwei Wang和中国北京理工大学的Yufeng Yue在IROS 2021研讨会中主持了挑战。


参考文献

[1] C. Cadena, L. Carlone, H. Carrillo, Y. Latif, D. Scaramuzza, J. Neira, I. D. Reid, and J. J. Leonard, “Past, present, and future of simultaneous localization and mapping: Toward the robust-perception age,” IEEE Trans. Robot., vol. 32, no. 6, pp. 1309–1332, 2016.

[2] Hilti AG. (2020). “Hilti Jaibot,”

相关文章:

  • iOS逆向工程概述与学习路线图
  • DeepSeek、Grok、ChatGPT4.5和Gemini四大AI模型深度解析:谁才是你的最佳助手
  • 704. 二分查找
  • 深入解析 I²C 与 SPI 协议:原理、时序及软件实现
  • Git强制覆盖分支:将任意分支完全恢复为main分支内容
  • IO进程线程
  • 2025华为OD机试真题目录【E卷+A卷+B卷+C卷+D卷】持续收录中...
  • 基于RK3588的重症监护信息系统应用解决方案
  • 深拷贝与浅拷贝
  • 微服务,服务治理nacos,负载均衡LOadBalancer,OpenFeign
  • Leetcode 662: 二叉树最大宽度
  • 大白话跨域问题的原理与多种解决方法的实现
  • 信息学奥赛一本通1009
  • el-table input textarea 文本域 自适应高度,切换分页滚动失效处理办法
  • 【Linux实践系列】:用c语言实现一个shell外壳程序
  • HTML + CSS 题目
  • C语言基础知识02
  • 安防监控/视频集中存储EasyCVR视频汇聚平台如何配置AI智能分析平台的接入?
  • 分布式锁—2.Redisson的可重入锁二
  • CSS - 妙用Sass
  • 中俄领导人将讨论从俄罗斯经蒙古至中国天然气管道项目?外交部回应
  • 巴基斯坦军方称印度袭击已致26死46伤
  • 李云泽:大型保险集团资本补充已经提上日程
  • 中国公民免签赴马来西亚的停留天数如何计算?使馆明确
  • 缅甸国防军继续延长临时停火期限至5月31日
  • 《开始推理吧3》:演员没包袱,推理更共情