当前位置：首页 > news >正文

Swift-Mapping: Online Neural Implicit Dense Mapping in Urban Scenes 论文学习记录

news 2025/10/29 9:31:34

这篇论文的主要创新点是：

提出使用神经隐式八叉树来高效的表示城市场景
设计了建图框架来高效的管理八叉树

在这里插入图片描述

1. Neural Implicit Octomap

NIO的feature有两个，深度和颜色，对深度和颜色使用独立的MLP分别表示几何和图像信息

1.1 Octree-based Voxel Grid

定义八叉树有 $K$ 层，最小的体素分辨率为 $l$

基于八叉树的结构分配体素，只有在 $k$ 层的子体素 $k - 1$ 层中，有超过两个 $k - 1$ 层子体素有效时，第 $k$ 层体素标记为有效

在连续建图过程中，如果点云对应的点已经关联的有效体素，就不用做任何操作，
如果该点没有关联任何无效体素，说明这是新的区域，就随机初始化隐特征向量，增加到八叉树的结构中

这里个人理解，如果点云数据关联到无效体素，无效体素一般是天空、空气，则很可能是点云数据的误差，正常来所是不会出现的

八叉树结构可以促进帧之间的信息传递，因为相邻帧更容易采集到相同的元素，这里个人理解原因是，对于自动驾驶场景，帧之间的数据是快速变化的，所以基于NICE-SLAM基于体素的特征网格，相邻帧之间可能没有相同的元素，而因为八叉树有远景的数据，即使快速移动，相同的场景即使没有出现，也可能属于同一个远景，可能连接在同一个远景上面，这样是有助于帧之间的信息传递的

1.2 Distance Adaptive Voxel Initialization

这里自适应的距离采用本质上是近大远小的原则，如果假设最大采用距离 $d_{max}=100m$ ，假设八叉树的最大层数 $K = 3$

根据论文所说，最大距离对应的分辨率是 $l*2^{K-1}$ ，且 $k$ 层包括从距离 $2^{k-K}*d_{max}$ 到 $2^{k-K+1}*d_{max}$ ，可以列出以下表格，特征维度的计算在Hierarchical Latent Vector Extraction部分提到， $k$ 层的隐向量维度是 $k - 1$ 的二倍

$k$	单个体素数量	自适应距离	该层的特征维度	分辨率
$k = 0$	64个	$12.5 - 25 m$	$D$	$l$
$k = 1$	8个	$25 - 50 m$	$2 D$	$2 l$
$k = 2$	1个	$50 - 100 m$	$4 D$	$4 l$

2. Dense Mapping Using Hierarchical Latent Vectors

iMAP通过设置关键帧列表来缓解在MLP训练过程中的灾难性遗忘，Nice-SLAM通过优化特征网格，固定MLP来缓解灾难性遗忘，在此篇论文中，同时优化MLP和网格数据，通过引入分层隐向量来缓解灾难性遗忘

2.1 Sparse Hybrid Voxel Sampling

采集到的深度信息经常有很多噪声，在这篇论文中，采用从LIDAR的稀疏深度输入，通过CompletionFormer进行深度的填充，得到稠密深度

在光线上混合采样策略和Nice-SLAM相同，都是均匀采样一部分，再在深度附近采样一部分

但是由于NIO是稀疏的，所以不是所有的采样点都会对应有效的体素，那怎么计算一个采样点是否在有效体素内呢？

论文中给出的方法是大量采样，对于采集到的点计算其三维坐标，论文中提到的除法运算就是，三维坐标点除以分辨率，取整后就可以得到这个采样点落在了哪个体素中，这样就可以通过简单的方法判断采样点是否有效

对于落在有效体素中的采样点，就会做体征提取和MLP，参与到之后的优化中，而对于落在无效体素中的采样点，说明这个采样点是空气，给其特征赋予0，不参与MLP和优化，只参与之后的体渲染(volume rendering)

2.2 Hierarchical Latent Vector Extraction

在2.1之后，每个有效点都和有效体素对应之后， $ϕkd(p)\phi^d_k(p)$ 和 $ϕkc(p)\phi^c_k(p)$ 用来提取每个层中每个有效体素的深度/颜色特征

在获取每层的特征之后，结合上表中维度的不同，通过控制和 $αk\alpha_k$ ， $βk\beta_k$ 相乘的次数，来保证每一层的特征维度都是一样的，例如，对于 $k = 0$ ，此时维度为 $D$ ,最后的特征维度就是 $8 * 1 D$ ,而 $k = 1$ ，此时维度为 $2 D$ ,最后的特征维度就是 $4 * 2 D$ ，以此类推