论文Review Lidar 3DGS Splat-LOAM: Gaussian Splatting LiDAR Odometry and Mapping
基本信息
题目:Splat-LOAM: Gaussian Splatting LiDAR Odometry and Mapping
来源:ICCV 2025
学校:Sapienza University of Rome
是否开源:https://github.com/rvp-group/Splat-LOAM
摘要:纯激光3DGS!
激光雷达提供了精确的几何测量,使其在自运动估计和重建任务中具有重要价值。尽管它取得了成功,但对环境进行准确和轻量级的表示仍然是一个挑战。经典的和基于NeRF的解决方案都必须在精度与内存和处理时间之间进行权衡。在这项工作中,我们利用高斯抛雪球方法的最新进展,开发了一种新的激光雷达里程计和地图绘制管道,它完全依赖于高斯图元来表示其场景。利用球面投影,我们从LiDAR测量数据中唯一地驱动基元的精化。实验表明,我们的方法匹配了当前的配准性能,同时以最小的GPU需求实现了映射任务的SOTA结果。这一效率使其成为机器人实时估计任务中进一步探索和潜在采用的有力候选者。
Introduction
激光在定位和重建作用很大。现有的LSLAM,全局地图只是把每帧的观测叠加在一起,就导致点云数量庞大,难以实时操作全局地图。有些方法运用面元、Meshes作为地图表示。
最近有很多基于Nerf的工作,首个Nerf-SLAM:iMap。
明确可以替代Nerf的方法:3DGS。该方法利用3D高斯形状的基元和一个可微的、基于瓦片的光栅化器来生成外观精确的表示。
3DGS的一个问题涉及到原始初始化。在SFM提供的点很少或没有的区域,自适应致密化往往会失败,通常会产生欠重建区域。LiDAR传感器在解决这个问题时非常方便,因为它提供了显式的空间测量,可以用来初始化局部表示。
但是没有人尝试3DGS在纯Lidar数据下的性能。这些见解导致我们开发了Splat - LOAM,第一个激光SLAM的Pipeline,它仅使用高斯基元作为其表面表示。我们的系统在部分计算需求下展示了与其他SOTA管道相媲美的结果,为自主系统中的实时感知提供了一个额外的研究方向。
本文贡献如下:
- 一个可微的,基于瓦片的2D高斯球面框架的光栅化器。
- 一个mapping pipeline,允许将连续的LiDAR测量合并成2D高斯表示。
- 一个跟踪方案,利用3D和2D表示来track新的measurement和估计传感器的ego运动。
Related Works
Classic LiDAR Odometry and Mapping
LOAM、Lego-LOAM、MD-SLAM、LO-Net、PWCLO-Net、CT-ICP、MAD-ICP、SLAMesh
Implicit Methods
SHINE-Mapping、N3-Mapping、NeRFLOAM、LONER、PIN-SLAM、
Gaussian Splatting
MM-Gaussian、LIV-GaussMap、LiDAR-GS、GSLiDAR
Method
论文提出了一种新颖的基于2D高斯原语的LiDAR里程计与地图构建方法,用于处理LiDAR点云数据,实现高效的机器人定位与环境建模。传统的高斯 splatting(高斯溅射)方法主要用于基于针孔相机模型的图像渲染,而LiDAR提供的是360°全景点云数据,因此需要一种新的投影模型和表示方法。论文采用了球面投影模型将LiDAR点云转换为类图像表示,并基于2D高斯原语进行场景建模、里程计估计和渲染。
3.1. Spherical Projection Model
LiDAR传感器提供的是360°全景点云数据,与传统针孔相机模型不同,无法直接应用基于针孔投影的高斯 splatting。因此,论文提出了一种球面投影模型,将3D点云投影到2D图像平面,形成类图像的表示(例如深度图),便于后续优化高斯原语。
(比较经典的激光投影模型)
3.2. 2D Gaussian Splatting
论文选择2D高斯原语作为场景的唯一表示形式,原因是:
- 2D高斯具有薄结构,适合表示表面。
- 显式编码表面法向量,便于精确的表面重建。
- 支持高效的里程计估计、地图构建和渲染。
3.2.1. Rasterization
3.2.3. Bounding Box Computation
为了精确计算射线与高斯原语的交点,论文提出了一种基于射线-平面交点的方法。每个像素 对应一条射线,方向为
,需要在高斯球的平面中找到交点。
3.2.3. Bounding Box Computation
为了高效光栅化,需要为每个高斯球计算其在图像平面上的边界框。球面投影的特殊性(水平边界存在坐标奇异性,例如 )增加了计算难度。
- 计算 splat 空间边界框:
- 在 splat 空间中,计算高斯球的 3σ 边界框(覆盖高斯分布的主要区域)。
- 使用球面投影公式
将边界框的顶点投影到图像平面。
- 处理坐标奇异性:
- 将边界框的中心顶点平移到图像中心,避免投影到水平边界
附近导致的奇异性。
- 计算边界框的水平范围,考虑球面图像的周期性。
- 将边界框的中心顶点平移到图像中心,避免投影到水平边界
- 传播到瓦片:
- 将高斯原语的ID传播到覆盖的瓦片中,考虑坐标奇异性,确保边界框一致性。
3.3. Odometry And Mapping
介绍了基于2D高斯原语的里程计与地图构建方法,核心思想是利用关键帧策略(keyframing)来优化局部地图,并通过几何和光度一致性进行帧到模型的配准。主要内容包括:
- 局部模型初始化:根据输入的LiDAR点云初始化高斯原语模型。
- 局部模型优化:通过几何一致性、光度一致性和正则化项优化高斯原语的参数。
- 帧到模型配准:结合几何和光度损失,估计传感器的位姿(里程计)。
该方法通过关键帧策略减少了连续积分的计算负担和伪影影响,同时保证了实时性。每个局部地图被定义为一个独立的高斯模型 ,其中每个高斯球 G 由质心 μ 、协方差 Σ 和不透明度 o 定义。
3.3.1. Local model initialization
局部模型初始化是在系统启动或满足特定条件(如能见度变化)时,根据输入的LiDAR点云生成一个新的高斯原语模型。目标是快速生成初始的高斯原语集合,作为后续优化的基础。
3.3.2. Local Model Refinement
局部模型优化通过对关键帧的高斯原语进行有限次迭代(次数为 ),优化其参数(位置 μ 、协方差 Σ 、不透明度 o 等),以提高几何和光度一致性。优化过程结合了多种损失函数,确保模型的准确性和鲁棒性。
损失函数如下:
- 避免不透明度重置:论文未采用不透明度重置策略,以防止“灾难性遗忘”(catastrophic forgetting),即丢失先前优化的信息。
- 各向异性支持:缩放正则化允许高斯原语在不同方向上具有不同的大小,增强了对复杂几何(如边缘)的建模能力。
3.3.3. Frame-To-Model Registration
帧到模型配准的目标是估计新关键帧的位姿(传感器在全局坐标系中的变换 ),通过结合几何一致性和光度一致性优化里程计。配准过程利用了渲染的局部模型(深度图 D、法向量图等)与当前LiDAR点云的测量数据。
总里程计损失由几何损失和光度损失组成:
几何配准采用以下方法:
光度配准:
位姿更新:
实验
硬件环境
- 处理器:Intel Core i9-14900K @ 3.20GHz
- 内存:64GB
- 显卡:NVIDIA RTX 4090(24GB显存) 此硬件配置支持高效处理大规模点云数据和神经网络计算,确保实验结果的可靠性和实时性。
BenchMark
里程计基线:
- 点到平面ICP:最简单的点到平面迭代最近点(ICP)方法,作为基准。
- SLAMesh:通过高斯过程同时估计场景的网格表示并进行配准,但无法使用地面真实位姿(ground-truth poses)运行官方实现,因此未包含在定量比较中。
- MAD-ICP:基于PCA的KD树森林进行高精度配准,利用局部几何特征提高配准效率。
- PIN-SLAM:最先进的隐式LiDAR SLAM方法,使用神经点(neural points)表示场景的签名距离场(SDF),并采用无对应点的点到隐式配准方案。
地图构建基线:
- OpenVDB:提供鲁棒的体视数据结构处理3D点云,适合高效存储和查询。
- VoxBlox:结合自适应权重和分组射线投射(ray-casting),实现高效且准确的截断签名距离函数(TSDF)整合。
- N^3-Mapping:基于神经隐式的非投影SDF地图构建方法,利用法向量引导生成更精确的SDF,是离线LiDAR地图构建的SOTA方法。
- PIN-SLAM:通过marching cubes算法从隐式SDF生成网格,兼顾里程计和地图构建
数据集
- Newer College Dataset (NC):
- 描述:使用手持Ouster OS0-128 LiDAR在牛津大学校园(结构化和植被区域)采集的数据。
- 特点:提供厘米级精度的地面真实位姿和点云地图(通过Leica BLK360扫描仪生成)。
- 用途:适合评估SLAM系统在结构化和自然环境中的性能。
- A Vision Benchmark in Rome (VBR):
- 描述:在罗马使用车载OS1-64和手持OS0-128 LiDAR采集,涵盖大规模城市场景(如狭窄街道、动态物体)。
- 特点:通过融合LiDAR、IMU和RTK GNSS数据提供厘米级精度的地面真实位姿。
- 用途:测试方法在动态城市环境中的鲁棒性。
- Oxford Spires:
- 描述:使用手持Hesai QT64 LiDAR(360°水平视场、104°垂直视场、64通道、60米范围)在牛津大学多个地标(如Keble College、Bodleian Library、Radcliffe Observatory)采集。
- 特点:提供由测绘级3D激光扫描仪生成的先验地图,用于地面真实位姿估计和地图评估。
- 用途:评估室内外场景的定位和重建,测试方法对不同细节水平的适应性。
- Mai City:
- 描述:使用模拟LiDAR(120米范围)在虚拟城市环境中通过射线投射生成的无误差、无运动畸变点云数据。
- 特点:选择01和02序列,模拟不同垂直分辨率的场景。
- 用途:测试方法在理想条件下的性能,作为对照实验。