【3D图像技术分析与实现】CityGaussianV2 工作解析
CityGaussianV2是中国科学院团队在ICLR 2025提出的大规模三维场景重建模型,其核心目标是解决传统高斯体(Gaussian Volume)方法在复杂城市环境中几何精度不足、训练效率低下和显存占用过高的问题。以下是其技术细节与应用价值的全面解析:
一、核心技术突破与问题解决
-
几何精度优化
针对3D高斯溅射(3DGS)因非结构化表征导致的表面模糊问题,CityGaussianV2引入分解梯度密集化(DGD)和深度回归监督。通过将SSIM损失作为梯度主要来源,结合Depth-Anything-V2的伪深度先验,消除了重建中的模糊伪影,使几何F1分数显著提升(在TnT数据集上超越SuGaR、GOF等方法)。例如,在1.97平方公里的城市区域重建中,模型能精准还原树木、建筑立面等复杂结构。 -
显存与效率优化
针对2D高斯面片(2DGS)在大规模场景中因退化导致的高斯计数爆炸问题,提出伸长滤波器动态筛选高延展率面片,避免基元数量指数级增长。结合并行训练优化(子模型划分+端到端压缩),实现了10倍存储压缩、25%训练时间节省和50%显存降低,在31.5GB显存下完成千万级高斯点的训练。 -
评估体系创新
建立了基于可见性的TnT风格几何基准,通过滤除欠观测区域的不稳定点云,客观评估大规模场景的重建质量,填补了领域内长期缺乏标准化评测工具的空白。