当前位置: 首页 > news >正文

【论文简读】MuGS

在这里插入图片描述

今天读一篇ICCV 2025的文章,关注的是Generalizable Gaussian Splatting,作者来自华中科技大学。

文章链接:arxiv
代码仓库:https://github.com/EuclidLou/MuGS(摘要中的链接,但暂时404)

文章目录

  • 1 Introduction
  • 2 Related Work
  • 3 Preliminary
  • 4 Method
    • 4.2 MDE-based Depth Refining
      • (a) Projection & Sampling Consistency
      • (b) Probability Refinement
    • 4.3 Feature Enhancement & Gaussian Regression
      • (a) Feature Enhancement
      • (b) Expectation & Heads
    • 4.4 Multi-View Rendering & Reference Loss
  • 5 Experiments
    • 5.1 Settings
    • 5.2 结Results
    • 5.3 Ablation

1 Introduction

3D-GS渲染高效,但传统做法需逐场景优化;已有可泛化方法通常只对小基线大基线其中一种场景友好,跨基线(不同相机间基线长度差异大)时效果不稳。

  • 核心目标:提出一个无需per-scene优化、能在稀疏视角下同时适配小/大基线通用3D-GS重建框架。
  • 关键思路:以深度准确性为切入点,联合利用MVS的几何一致性与单目深度(MDE)的先验鲁棒性;通过投影-采样一致性细化粗深度概率体,使高斯的空间放置更稳定,从而提升跨基线泛化与渲染质量。
  • 主要贡献
    1. 多基线通用的可泛化3D-GS pipeline(纯前向推理)
    2. 投影-采样一致性模块,细化深度概率体
    3. 特征增强(融合MVS/MDE特征)→ 稳定回归高斯参数
    4. 参考视角监督(Reference-view loss)→ 强化几何 & 加速收敛

2 Related Work

  • 传统/学习式MVS:前者依赖手工相似度与随机扰动;后者用代价体+网络正则,效率/泛化与精度存在权衡。跨大基线时,遮挡/视差分布与重叠区域不足会削弱匹配可靠性。
  • 可泛化NVS/3D-GS:已有方法多在深度估计不稳(尤其低纹理、镜面、宽基线)时退化,导致高斯位置/尺度不准、渲染模糊。
  • 单目深度(MDE):提供结构先验,但存在尺度/偏移误差;直接用作几何会引入系统性偏差。MuGS通过与MVS的投影-采样一致性来“相互校正”。

3 Preliminary

4 Method

在这里插入图片描述

  • 输入:参考视角(目标渲染视角)+ 若干源视角(通常稀疏,多基线分布)。
  • 双分支特征与深度
    • MVS 分支:构建目标视角的粗深度概率体 (V_p)(基于多视角特征/代价体)。
    • MDE 分支:对每个源视角输出单目深度图 (D_i) 与单目特征
  • 投影-采样一致性:把 (V_p) 中候选深度点投影到各源视角,与 (D_i) 上采样到的深度对比,得到一致性线索,用于细化 (V_p\rightarrow V_p^{\text{fine}})
  • 特征增强与回归
    • 将 MVS 与 MDE 特征对齐聚合为VfV_fVf
    • VpfineV_p^{\text{fine}}Vpfine的分布在深度维求期望,获得期望深度/特征
    • 通过多头 MLP 回归每像素的高斯参数 {μ,s,r,α,c}\{\mu,s,r,\alpha,c\}{μ,s,r,α,c}
  • 渲染与监督:渲染目标视角与若干源视角(参考监督),计算重建损失

4.2 MDE-based Depth Refining

(a) Projection & Sampling Consistency

  • 对粗概率体 VpV_pVp 中的每个候选点 PPP(在目标视角坐标系):
    1. 投影到源视角 (i)
      Pi∗⋅dpi=Ki(RiP+ti)P_{i}^{*} \cdot d_{p}^{i} = K_{i} (R_{i} P + t_{i})Pidpi=Ki(RiP+ti)
      得到投影深度dpid_{p}^{i}dpi与像素Pi∗P_{i}^{*}Pi
    2. 在单目深度图DiD_iDiPi∗P_{i}^{*}Pi双线性采样得到采样深度dsid_s^idsi
    3. 一致性线索:利用 (dpi,dsi,dsi/dpi)(d_{p}^{i}, d_{s}^{i}, d_{s}^{i}/d_{p}^{i})(dpi,dsi,dsi/dpi) 以及区域上下文,经卷积网络得到体素级一致性体VciV_{c}^{i}Vci
  • 直觉:若候选点靠近真实表面,投影深度 ≈ 采样深度;偏离表面时差异增加。一致性越高,越应当提升该深度候选的概率。

(b) Probability Refinement

  • 聚合多视角一致性。
  • VcV_cVc作为Query、VpV_pVp作为Key/Value做深度向注意力(或门控融合):
    Vpfine=Attention(Vc,Vp,Vp)+VpV_{p}^{\text{fine}}=\text{Attention}(V_c, V_p, V_p)+V_pVpfine=Attention(Vc,Vp,Vp)+Vp
    在保留可靠 MVS 证据的同时,重点提高接近真实表面的概率质量。

4.3 Feature Enhancement & Gaussian Regression

(a) Feature Enhancement

  • 将源视角的 MDE 特征MVS 特征 扭曲对齐到目标视角的等深平面/锥体,再沿视角维/深度维做聚合,得到特征体。
  • VpfineV_p^{\text{fine}}Vpfine 提供几何先验,引导VfV_fVf的深度选择与融合。

(b) Expectation & Heads

  • 期望深度/特征:以VpfineV_p^{\text{fine}}Vpfine作为权重,在深度维求期望获得D^\hat{D}D^F^\hat{F}F^
  • 逐像素回归高斯参数(多头 MLP):
  • 几何放置:将像素(u,v)(u,v)(u,v)结合D^\hat{D}D^反投影到3D得中心 μ\muμ,与 (s,r,α,c)(s,r,\alpha,c)(s,r,α,c)共同组成像素对齐高斯用于渲染。

4.4 Multi-View Rendering & Reference Loss

  • 目标视角损失:颜色重建L1L_1L1、结构相似LSSIML_{\text{SSIM}}LSSIM、感知损失LLPIPSL_{\text{LPIPS}}LLPIPS等。
  • 参考视角损失:用目标视角生成的高斯直接渲染源视角图像,施加L1L_1L1等重建约束,从而:
    • 强化跨视角几何一致性
    • 在相同训练步数下更快收敛(显著提升早期PSNR)。

5 Experiments

5.1 Settings

  • 数据:小基线(如 DTU)、大基线(如 RealEstate10K 两帧间隔大)、以及零样本评测(LLFF / Mip-NeRF360)。
  • 单目分支:采用强鲁棒的通用单目深度(如 Depth-Anything v2)以增强先验泛化。
  • 评价:渲染质量(PSNR/SSIM/LPIPS)、几何(深度误差/F-score)、速度(FPS/吞吐)。

5.2 结Results

  • 小基线(DTU):在 2/3 视角输入下较既有可泛化方法取得更高 PSNR/SSIM,边缘与细节更干净。
  • 大基线(RealEstate10K):在 2 视角且帧间距很大时,仍保持清晰结构与正确尺度关系,PSNR 明显领先。
  • 零样本(LLFF / Mip-NeRF360):无需微调即具备稳定质量与几何一致性,表明跨场景泛化良好。
  • 速度与稳定性:显式高斯渲染带来较高推理效率;参考监督帮助训练更快到达高质量解。

5.3 Ablation

  • 去除投影-采样一致性:深度概率体变宽/错峰,几何抖动增大,PSNR/深度精度明显下降。
  • 去除特征增强:颜色一致性与纹理细节降低,边界模糊。
  • 去除参考监督:相同训练步数下 PSNR 降低、收敛变慢;最终几何也更差。
http://www.dtcms.com/a/357783.html

相关文章:

  • 【拍摄学习记录】05-对焦、虚化、景深
  • 2025年06月 Python(四级)真题解析#中国电子学会#全国青少年软件编程等级考试
  • Golang 面试题「中级」
  • 四旋翼飞行器动力学建模与简单PID控制
  • 锂电池充电芯片 XSP30支持PD/QC等多种快充协议支持最大充电电流2A
  • 嵌入式Linux驱动开发:i.MX6ULL平台设备驱动
  • 第22章笔记|把“可传参脚本”打磨成“高级好用的工具”
  • 博客系统测试实战:功能和性能的全面解析
  • selenium自动下载更新浏览器对应的webdriver
  • 关于shell命令的扩展
  • log4jshell CVE-2021-44228 复现
  • R1 快开门式压力容器操作证考试大纲解读:重点模块与考核标准
  • Linux Shell 编程
  • 淘宝商品评论接口技术实现:从评论获取到情感分析全流程方案
  • SQL知识
  • 序列容器(vector,deque,list)
  • 4x12G-SDI(四链接12G-SDI)
  • PCIe 6.0 TLP结构解析:深入理解事务层数据包的设计与实现
  • Windows Command Line Windows 命令行
  • 【RAG Agent实战】告别“单线程”RAG:用查询理解与LangGraph构建能处理复杂意图的高级代理
  • ros2--action/动作--接口
  • 2024年12月 Python(四级)真题解析#中国电子学会#全国青少年软件编程等级考试
  • 中科米堆CASAIM五金配件三维扫描测量尺寸形位公差
  • MySQL 中如果发生死锁应该如何解决?
  • OpenAI宣布正式推出Realtime API
  • ADC模数转换
  • Set和Map
  • AI的“科学革命”:Karpathy吹响号角,从“经院哲学”走向“实验科学”
  • 【.net core】【NPOI】读取表格信息(处理合并行表格数据)
  • vscode里面可以批量放弃更改