当前位置: 首页 > news >正文

SceneSplat

SceneSplat: Gaussian Splatting-based Scene Understanding with Vision-Language Pretraining》

一、研究背景与意义

  • 传统 3D 语义理解多基于 闭集标签(如 ScanNet),泛化性差,难以应对真实场景中的长尾类别。
  • 现有开放词表 3D 方法大多依赖 2D 投影 + CLIP/SAM,推理慢且不端到端。
  • 3DGS 已成为主流三维表示,但如何结合语言做开放词表语义,尚属空白。
  • 本文提出 SceneSplat,实现直接在 3D Gaussian Splatting (3DGS) 表示上进行端到端开放词表理解。

二、核心方法

1. 语言特征收集与高斯赋值(离线管线)

这是整个方法的第一步,目标是让 每个高斯 (Gaussian) 都有一个与自然语言对齐的语义特征。

(1) 2D 语义特征提取

  • SAM v2:对训练集中的每张图像做目标级分割,获得 mask。
  • SigLIP2:对分割区域提取语义特征。这里作者设计了 三种裁剪
    1. 全图 → 提供全局上下文;
    2. 局部带背景裁剪 → 保留目标与环境的关系;
    3. 局部去背景裁剪 → 专注目标本身。
  • 动态加权融合:通过一个自适应机制,将三种特征按质量动态融合,生成更鲁棒的 2D 特征表示。

(2) 2D → 3D 特征 Lift

  • 使用 Occam’s LGS 方法,将多视角 2D 特征 lift 到 3DGS
  • 最终,每个高斯点 gig_i 都被赋予一个语义特征向量 FiF_i。
  • 特点:一次离线处理,不需要像 NeRF-Semantic 那样逐场景优化,能扩展到大规模数据。

2. 视觉-语言预训练 (Vision-Language Pretraining)

目标:训练一个网络,输入高斯参数 → 输出与自然语言空间对齐的特征。

(1) 输入与网络结构

  • 输入:每个高斯的参数,包括:位置、尺度、旋转、颜色、不透明度等。
  • 输出:预测语义特征 F^i\hat F_i。
  • 骨干:Point Transformer v3 改造的 encoder-decoder,支持大规模高斯输入。

(2) 监督信号

使用从离线管线得到的 FiF_i 作为监督目标,设计了三类损失:

  1. 余弦相似度损失 LcosL_{cos}
    • 保证预测的 F^i\hat F_i 与目标 FiF_i 方向一致
    • 类似 CLIP 里的 cosine similarity。
  2. L2 损失 L2L_2
    • 保证预测特征与目标特征的 数值接近
    • 与 LcosL_{cos} 互补,避免仅方向对齐。
  3. 类级对比损失 LcontrastL_{contrast}
    • 问题:场景里高斯数量可能达到百万级,逐点对比代价太高。
    • 方案:对同类高斯特征先做 均值池化 得到类中心,再进行对比学习。
    • 训练策略:前 25% epoch 不启用对比损失,只用 Lcos+L2L_{cos}+L_2 让模型稳定收敛;后 75% 再加 LcontrastL_{contrast} 拉开类间间隔。

总损失

L=λ1Lcos+λ2L2+λ3LcontrastL = \lambda_1 L_{cos} + \lambda_2 L_2 + \lambda_3 L_{contrast}

(3) 推理特点

  • 推理时,网络直接输出每个高斯的语义特征。
  • 相比 2D-lift 方法:快约 446×,因为不用再跑 2D 模型 + 多视角投影。

3. GaussSSL:自监督预训练

考虑到标注语义的 3DGS 数据有限,作者设计了 自监督学习 (SSL) 策略,让模型在无标签场景上学到有用表征。

(1) Masked Gaussian Modeling (MGM)

  • 类似 MAE,但对象是 高斯 token
  • 随机遮挡一部分高斯嵌入,要求模型重建原始高斯参数(位置、尺度、颜色、不透明度等)。
  • 损失:L2 回归。
  • 意义:强迫模型理解高斯间的几何和外观关系。

(2) Self-Distillation (DINO + iBOT)

  • Teacher-Student 架构:teacher 提供目标,student 学习表征。
  • DINO:不同视角/增强下的高斯,应输出一致特征。
  • iBOT:在被 mask 的区域上,student 预测的表示与 teacher 对齐。
  • 意义:提升特征一致性,避免 collapse。

(3) Language Alignment (LA,可选)

  • 在有语义特征的场景上,引入轻量 autoencoder 压缩后的语言 embedding,做特征对齐。
  • 好处:语义 supervision 信号维度降低(如 16/64 维),显存成本低。

(4) 最终联合目标

LSSL=LMGM+LDINO+LiBOT+LLAL_{SSL} = L_{MGM} + L_{DINO} + L_{iBOT} + L_{LA}

(四者同权重相加)


三、网络框架

  • 骨干:基于 Point Transformer v3 的编码-解码结构,结合 Sparse Conv 与 Flash-Attention。
  • 配置示例(VL 预训练):Encoder 深度 [2,2,2,6],通道 [32,64,128,256];Decoder 深度 [2,2,2]。

四、实验与结果

  • 零样本分割:在 ScanNet200 / MP3D / ScanNet++ 上,SceneSplat 显著优于现有方法(f-mIoU 提升明显)。
  • 自监督预训练:GaussSSL 在 ScanNet20/200/++ 的下游分割中带来稳定提升。
  • 关键发现
    • 输入 3DGS 的 PSNR 与零样本 mIoU 正相关。
    • 类对比损失需在训练后期启用,效果最佳。
    • 3DGS 参数优于单纯点云属性,包含更丰富几何 + 外观信息。
    • 推理速度极快,适合大规模应用。

五、创新点

  • 首个大规模 3DGS 场景语义数据集:SceneSplat-7K,约 112.7 亿个高斯,平均 PSNR 29.64 dB。
  • 一次前向即可得到高斯语义特征,无需额外 2D 推理。
  • GaussSSL:结合 MGM + 自蒸馏 + 语言对齐的自监督框架,提升无标注场景下的表示能力。


文章转载自:

http://H8WI6Mp2.nktgj.cn
http://MaeiwN6U.nktgj.cn
http://DVcyfh5M.nktgj.cn
http://hlrqljd4.nktgj.cn
http://8rYB6Huo.nktgj.cn
http://yOdDMj0d.nktgj.cn
http://EzK2Naza.nktgj.cn
http://Sa26KKCY.nktgj.cn
http://RuYUn2yY.nktgj.cn
http://xjKoWD54.nktgj.cn
http://d3BAlajZ.nktgj.cn
http://KRkuH54O.nktgj.cn
http://7opfftQW.nktgj.cn
http://xqI80Vah.nktgj.cn
http://VkISNdyb.nktgj.cn
http://gnDLWJGm.nktgj.cn
http://N6h5ppqT.nktgj.cn
http://EKlQqVtL.nktgj.cn
http://udJ6dxU0.nktgj.cn
http://einXhMl1.nktgj.cn
http://yD1I4reR.nktgj.cn
http://f3jZceVi.nktgj.cn
http://Xk1Jm2Qx.nktgj.cn
http://YcntD6RT.nktgj.cn
http://gAjbMzXm.nktgj.cn
http://bis3hfQb.nktgj.cn
http://Z2P2EZ8i.nktgj.cn
http://oCKaoDHB.nktgj.cn
http://7qrETwIC.nktgj.cn
http://LSnjeYBW.nktgj.cn
http://www.dtcms.com/a/382201.html

相关文章:

  • Docker笔记上篇
  • 基于 Spring Boot+Vue 的高校竞赛管理平台
  • 闪电科创-边缘计算AI辅导
  • AOP快速入门
  • AI智能社会学TESC模型让你找到技术、经济、社会、文化游戏规则与未来秩序,以此看懂技术经济学数字空间社会学网络空间社会学互联网社会学
  • C# Entity Framework Core 的 CRUD 操作与关联查询实战示例
  • java后端工程师进修ing(研一版‖day44)
  • 部署 LVS-DR 群集
  • 事务学习总结
  • IP协议相关特性
  • 贪心算法应用:高频订单流平衡问题详解
  • Win系统下配置PCL库第四步之LASlib文件配置(超详细)
  • 软考-局域网基础考点总结
  • Asio C++ Library是用来做什么的
  • 深度学习在智能车辆故障诊断中的应用
  • DeepFace 全面使用教程
  • ISP之DHCPv6-PD(前缀代理)为用户下发前缀
  • LINUX913 shell:set ip [lindex $argv 0],\r,send_user,spawn ssh root@ip “cat “
  • GEO 优化专家孟庆涛以 AI 技术建体系,赋能多行业智能化转型
  • 没有统一的知识管理平台会带来哪些问题
  • 系统编程day10-同步与互斥
  • Spring Boot 整合 Mockito 进行单元测试
  • 【C++】C++11介绍(Ⅱ)
  • HTML新属性
  • 分库分表是否真的要退出历史舞台?
  • [BJ2012.X4] 统计车牌
  • 【Rust】一个从Modelscope下载模型CLI工具
  • 第三方服务商接入美团核销接口:零侵入对接的关键要点
  • 电压监控器原理
  • python面向对象的三大特性