【Transient-Free 3DGS】delayed densification + coarse to fine增加GS的鲁棒性
25年最新连接去除场景瞬态对象工程与3DGS的pipeline,改进了spotlesssplats,已开源:
[2506.02751] RobustSplat: Decoupling Densification and Dynamics for Transient-Free 3DGSAbstract page for arXiv paper 2506.02751: RobustSplat: Decoupling Densification and Dynamics for Transient-Free 3DGShttps://arxiv.org/abs/2506.02751
abstract
3D高斯溅射(3DGS)技术因其在新视角合成与三维建模中能够实现实时且具有照片级真实感的渲染效果而备受关注。然而,现有方法难以准确建模受瞬态物体(如移动行人、临时障碍物等)影响的场景,导致渲染图像中出现伪影。我们发现,高斯致密化过程在增强场景细节捕捉能力的同时,会因生成过多用于建模瞬态干扰的高斯函数而无意中加剧这些伪影。针对这一问题,我们提出RobustSplat解决方案,其核心基于两项关键设计:首先引入延迟高斯增长策略,在允许高斯分裂/克隆操作前优先优化静态场景结构,从而抑制早期优化阶段对瞬态物体的过拟合;其次设计尺度级联mask bootstrapping方法,先利用低分辨率特征相似性监督实现可靠的初始瞬态掩码估计(充分利用其更强的语义一致性和抗噪声鲁棒性),再逐步过渡到高分辨率监督以实现更精确的掩码预测。在多个高难度数据集上的大量实验表明,本方法性能优于现有技术,充分证明了其鲁棒性与有效性。
1. Introduction
当前的3DGS重建方法一般假设场景是静态的,而实际上我们真实的capture环境是动态变化的,并且这同样干扰到了我们多视图一致的要求,导致场景结果出现大量artifacts。
1.1存在的挑战
实现此目的核心挑战在于准确检测并过滤不同图像中受运动影响的区域。现有方法主要遵循三种范式:(1)基于特定类别的语义掩码(例如人体和车辆),难以泛化到多样化的瞬态物体;(2)通过考虑光度重建损失最小化中的不确定性进行基于不确定性的掩码,但往往无法可靠预测运动掩码[24];(3)基于学习的运动掩码方法,使用MLP以图像特征(如DINO特征[28])作为输入来预测运动掩码,并通过捕获图像与渲染图像之间的光度残差[34]或特征相似性[12,18]进行监督。
尽管基于学习的方法在无瞬态干扰的3DGS优化中表现出色,它们仍存在关键局限性。在训练初期,3DGS表征未充分优化,会导致渲染结果过度平滑,动态和静态区域均出现较大的光度残差和弱特征相似性。将这些不可靠信号作为掩码估计的监督会导致瞬态掩码不准确:过小的掩码无法消除瞬态物体而引发伪影,而早期过度平滑的重建会误分类静态区域,阻碍优化进程并导致重建不足,如图1所示。
1.2分析
为解决这些问题,需要重点考虑两个关键方面。首先,在初始优化阶段,应当显式约束3DGS的优化过程,防止在缺乏准确瞬态掩码的情况下对瞬态区域产生过拟合。其次,早期迭代中的掩码监督应设计为对欠重建区域更具容错性,从而保证静态区域能够充分重建。
通过对3DGS方法的详细分析,我们发现高斯致密化过程(默认在500次迭代后启动)在增强场景细节捕捉能力的同时,会无意中引入伪影(见图2)。初始阶段3DGS能较好地拟合场景静态部分,但随着致密化进程推进,会倾向于过度拟合动态区域,导致移动物体影响区域出现伪影。令人惊讶的是,我们发现显式禁用原始3DGS中的致密化过程可有效缓解这些伪影,无需任何专门设计即可获得与SpotLessS-plats[34]相当的结果。
这是因为在没有致密化的情况下,图像重建损失仅为3D高斯函数提供有限的位置梯度,主要优化其形状和颜色参数。因此,初始放置的高斯函数位置保持稳定,降低了对瞬态元素过拟合的风险。但致密化的缺失会导致高斯数量不足,无法充分表征精细细节,使得点初始化稀疏区域的渲染图像呈现过度平滑现象。
1.3 our approach
我们提出了一种简单而有效的RobustSplat方法,该方法包含两个核心设计:首先提出延迟高斯增长策略,优先重建3D场景的全局结构,同时显式避免过早拟合动态区域;其次引入尺度级联掩码自举方法,在保持对瞬态区域敏感性的同时改善欠重建区域的掩码监督信号。该方法逐步提升监督分辨率,利用低分辨率特征能更有效捕捉全局一致性并在早期优化阶段抑制局部噪声的特性。
我们的核心贡献可总结如下:
• 系统分析了3DGS致密化过程如何导致瞬态物体引发的伪影,为改进无干扰物3DGS优化提供了新见解
• 提出RobustSplat鲁棒方法,集成延迟高斯增长策略与尺度级联mask bootstrapping技术,有效降低动态物体在3DGS优化过程中的影响
• 通过简单而有效的设计,证明了本方法优于现有最先进技术
2. Related Work
Robustness in 3DGS
3DGS采用离散显式表示。因此,许多研究[9,18,36,44,59]探索将参考图像的全局信息与局部高斯特征相结合的光照建模策略。对于干扰物去除,通常使用掩码[1,8,39,40,43,49,50]来过滤瞬态物体。
为处理瞬态物体,WildGaussians[18]引入DINO[28]特征来预测不确定性,并将其转换为掩码。Robust3DGaussians[39]利用SAM[17]增强预测掩码的质量。SpotLessSplats[34]借助Stable Diffusion[32]的特征,设计了两种掩码预测的聚类策略。T-3DGS[30]提出了基于一致性损失的无监督瞬态检测器和视频目标分割模块来跟踪视频中的物体。
最近,DeSplat[42]仅通过最小化光度损失就将3DGS场景分解为静态3DGS和每视角瞬态3DGS。HybridGS[20]则将3DGS与每视角2D图像高斯结合,解耦动态和静态元素。DAS3R[51]和RoMo[12]利用时间一致性约束估计动态视频的运动掩码,但这些方法无法直接应用于无序图像集。与现有方法不同,我们分析了3DGS的致密化过程,并提出基于延迟高斯增长和尺度级联掩码自举的简单有效解决方案,可可靠消除瞬态物体的影响。
Optimization in Densification and Regularization
现有研究致力于改进3DGS的致密化和优化过程[3,10,14,60]。例如,部分方法[55,58,62]分析了梯度计算过程,发现了梯度碰撞或平均化等问题,这些问题会导致重建质量下降。RAIN-GS[15]研究了不依赖COLMAP SfM的3DGS替代初始化策略。这些方法均未考虑瞬态物体的影响。在本研究中,我们重点分析并利用高斯致密化在无瞬态干扰3D重建中的行为特性。
3. Method
3.0 Spotlesssplats简单介绍
我们的方法基于近期联合优化3D表示与瞬态物体掩码的鲁棒3DGS方法[Spotlesssplats]。瞬态掩码选择性过滤图像中的动态区域,同时通过为掩码MLP优化提供更精确的监督来改进场景建模。
下面简单介绍一下Spotlesssplats:
3.1 overview
从前面的介绍我们可知,Spotlesssplats通过瞬态掩码选择性过滤图像中的动态区域,同时通过为掩码MLP优化提供更精确的监督来改进场景建模。这种相互依赖关系可能导致早期训练不稳定。一方面,若掩码过小,则无法过滤所有瞬态区域,导致新生成的高斯函数拟合瞬态物体,这在后期难以消除伪影。另一方面,静态场景重建在早期往往过度平滑,会误导掩码MLP将静态区域误分类为动态区域,阻碍其重建并导致静态内容表征不足。
为解决前面所述问题,我们引入两项有效设计(见图3)。首先提出延迟高斯增长策略,推迟高斯致密化过程以防止早期拟合瞬态物体(3.2、3.3);其次提出尺度级联mask bootstrapping方法,随时间推移逐步优化掩码预测,减少静态区域被误判为瞬态区域的情况,从而改善静态内容的优化效果。
3.2. 3DGS with Transient Mask Estimation
3.2.1 3DGS的loss
依旧沿用之前使用的l1+ssim损失:
3.2.2 Transient Mask Estimation
对于瞬态对象的mask处理,我们follow了Wildgaussians和Spotlesssplats的方法,使用基于dinov2提取的图像特征输入MLP得到mask,可以看到,这个一个sigmoid计算的为每个像素预测的瞬态概率。它的值在0到1之间。:
然后,估计的掩码用于应用排除瞬态区域的掩码光度量损失。(dinov2在质量和速度上较为均衡)
3.2.3 Optimization of Mask MLP
掩码MLP权重的优化需要适当的监督信号。我们采用[34]中提出的基于图像残差信息的图像鲁棒损失L_residual作为监督项之一。
这里大概解释一下spotlessplats中的robust loss的思想,不一定完全一模一样:
为更好地利用从图像中提取的深层高维特征信息(其特性与图像残差不同),我们额外采用了特征鲁棒损失L_cos,该损失利用渲染图像与捕获图像之间的特征相似性信息。具体而言,我们提取真实图像ft与渲染图像f′t的DINOv2特征,并计算它们的余弦相似度图,随后按照[18]的方法将其值域转换至[0,1]范围:
当特征余弦相似度为1时M_cos等于1,当相似度低于0.5时则为0。特征鲁棒损失定义为:
最终,MLP的loss如下:
3.3. Delayed Gaussian Growth for Mask Learning
3.3.1 why we delay densification?
如图5(a)所示,延迟密度化允许3DGS在早期训练阶段专注于重建静态场景。然而,一旦密度开始,新引入的高斯倾向于适应瞬态物体,导致PSNR度量的减少。值得注意的是,早期密度的模型表现出较差的性能,这表明过早的密度化促进了瞬态物体拟合。这些结果表明,推迟密度化有助于模型在适应动态元素之前更好地捕获静态成分。
3.3.2 Mask Learning with Delayed Gaussian Growth
我们将瞬态掩码学习机制集成到延迟致密化流程中。如图5(b)所示,通过利用掩码预测来调控高斯扩张,该整合策略显著提升了重建精度。这种借助掩码预测约束高斯扩张的方法,有效抑制了瞬态伪影并增强了场景保真度。特别值得注意的是,延迟致密化起始时机越晚的变体,所能达到的精度越高。这些结果表明:瞬态掩码学习与延迟致密化通过协同工作机制,共同提升了3DGS优化的稳定性和准确性。
3.3.3 Mask Regularization at Early Stage
这里讨论一下early stage中的mask,因为前面我们提到了,瞬态对象的mask对于GS的前期会有过于平滑的影响,这里,我们同样受益于delayed densification的操作,我们对于前面使用MLP预测的mask做一个分类,以区分瞬态对象与静态区域1-Mt,然后使用该mask做filter过滤出瞬态对象作为监督,如下:
至此,mask相关的所有loss项如下:
3.4. Scaled-cascaded Mask Bootstrapping
尽管我们的延迟高斯增长策略通过将优化聚焦于静态区域,有效减弱了瞬态区域的影响,但静态场景的欠重建问题在早期阶段依然存在。该问题源于初始高斯点的稀疏性,尤其是在大规模无约束户外场景中。因此,这些区域生成的渲染结果会呈现过度平滑的现象,从而导致较大的图像残差和较低的特征相似度。这进而会误导掩码MLP,将欠重建的静态区域误分类为动态区域。
3.4.1 Robust Feature Similarity Computation
我们的目标是在优化初期阶段,使监督信号对欠重建区域更具容错性。我们观察到,虽然从高分辨率图像中提取的高分辨率特征能提供细粒度的空间细节,但其感受野有限,且对局部噪声的敏感性较高。相比之下,低分辨率特征能更有效地捕捉全局一致性,因为每个特征块整合了更广泛的上下文信息,固有地抑制了特征表示中的局部噪声。
如图6所示,与高分辨率图像相比,低分辨率图像天然地抑制了精细细节,从而产生更平滑的颜色残差和特征相似度。这表明,在早期阶段以较低分辨率评估残差和特征相似度,可以提升鲁棒性——既能保留欠重建的静态区域,又能维持对瞬态区域的敏感性。
3.4.2 Coarse-to-fine Mask Supervision
我们提出了一种分辨率级联方法,通过从低分辨率信号逐步过渡到高分辨率信号来细化掩码监督。该方法有助于掩码MLP在优化初期保留更多静态区域。
在高斯致密化过程开始前,通过3DGS渲染低分辨率图像,并计算低分辨率图像残差与特征一致性,以此监督掩码MLP的优化,以及静态场景区域的充分拟合。一旦致密化过程启动,我们则切换至高分辨率残差及高分辨率特征间的余弦相似度计算,确保能对瞬态区域与静态区域实现更精细的区分。
4. Experiments
数据集
在两个公认的高难度基准数据集上评估RobustSplat方法的性能:NeRF On-the-go数据集包含12个具有不同遮挡比例(5%-30%)的室外场景,其中6个常规场景和6个更复杂的扩展场景(称为NeRF On-the-go II);RobustNeRF数据集则包含4个专门设计的室内场景,每个场景都包含多种干扰重建保真度的瞬态物体。这两个数据集共同提供了涵盖室内外环境的全面测试基准。
baseline
本研究与多个先进方法进行对比:包括原始3DGS基础方法,以及最新推出的SpotLessSplats、WildGaussians、Robust3DGaussians和T-3DGS等专攻鲁棒性优化的方法。所有对比实验均使用各方法的公开实现,并在完全相同的相机参数设置下进行,确保比较结果的公平性和可重复性。
metrics
采用主观视觉评估和客观定量指标相结合的评价体系。定量评估采用计算机视觉领域通用的三个指标:PSNR(峰值信噪比)、SSIM(结构相似性指数)和LPIPS(学习感知图像块相似度),分别从像素级精度、结构保真度和感知质量三个维度全面衡量重建效果。视觉对比则重点关注瞬态伪影消除情况和静态细节保留质量。
4.1. NeRF On-the-go Dataset
如表1所示,我们的方法在全部六个场景的PSNR、SSIM和LPIPS三项指标上均取得最佳性能;
如图7所示,基线方法存在明显伪影,而本方法通过延迟高斯增长与尺度级联掩码自举的协同设计,成功消除了伪影并在细节重建(如Patio-high场景的窗户和Fountain场景的建筑结构)方面展现出显著优势。
4.2. RobustNeRF Dataset
在RobustNeRF数据集上的进一步验证表明:如表3所示,本方法在综合指标上达到最优,虽然在Android场景的PSNR和SSIM略逊于基线,但仍保持竞争力,并在其余三个场景中显著超越现有方法;图8的定性对比显示,本方法实现了无瞬态伪影且细节清晰的高质量重建效果。
4.3. Ablation Study
4.4稀疏高斯初始化与高斯致密化的实验
由于SfM基于多视角一致性重建稀疏点云,在移动前于多张捕获图像中保持静止的瞬态物体会将噪声点引入重建过程。因此,即便在高斯致密化开始前,3DGS也可能初步拟合这些瞬态区域。
如图S1所示,在NeRF On-the-go数据集的Patio场景中,移动物体曾保持静止状态一段时间,导致COLMAP重建出与这些瞬态物体对应的噪声点。这使得3DGS初始阶段会拟合这些瞬态区域。
然而,随着优化时间的延长,我们的瞬态掩码估计会逐步消除这些伪影。这一现象表明,通过应用瞬态掩码过滤动态区域,我们的方法能有效缓解噪声初始化的影响,从而提升重建质量。
4.5光照变化问题
在真实世界环境中,光照变化也会引发多视角不一致性,导致漂浮伪影。本研究主要针对瞬态物体干扰,但由于缺乏显式光照模型(图S2),当场景中出现剧烈光照变化时,我们的方法无法正确建模真实光照变化。将光照建模纳入现有框架是未来工作的重要方向,这将有助于处理更复杂的户外数据集。