当前位置: 首页 > news >正文

【论文阅读笔记】CVPR2025 | 2D高斯溅射的几何-光照解耦:Ref-GS实现开放世界级真实渲染

Ref-GS: Directional Factorization for 2D Gaussian Splatting

Info


会议 【CVPR 2025】

作者 华中科技大学,图宾根大学,西湖大学,浙江大学;华科·杨卫教授团队

Github地址 https://github.com/YoujiaZhang/Ref-GS

Abstract


在本文中,我们介绍了一种名为Ref-GS的新方法,用于2D高斯喷溅中的方向光因子分解,这使得光照依赖于视角的逼真外观渲染和精确的几何恢复成为可能。Ref-GS建立在高斯喷溅的延迟渲染基础上,并将方向编码应用于延迟渲染的表面,有效减少了方向和视角之间的分歧。接下来,我们引入了一个球形Mip-grid来捕捉不同水平的表面粗糙度,实现了粗糙度感知的高斯阴影。此外,我们提出了一种简单而高效的几何-光照因子分解方法,通过向量外积将几何与光照连接,在集成体积属性时显著减少了渲染器的开销。我们的方法在一系列开放世界场景中实现了卓越的逼真渲染,同时也准确恢复了几何形状。

Introduction


视角相关效果(如反射与折射)是3D重建与渲染的核心要素。尽管计算机图形学的前向渲染技术已研究此类光线-材质交互数十年,但神经辐射场(NeRF)与高斯溅射(GS)等新兴方法在复杂材质场景重建时,仍存在显著的几何与渲染瑕疵。

NeRF及其衍生技术将3D场景表示为辐射点集合,仅通过视角方向查询颜色,而未考虑光线从光源到相机的传播路径(包括反射和折射)。为解决这个问题,Ref-NeRF采用表面光场渲染技术,用集成反射编码替代原有的方向参数化,显著提升了镜面反射的真实性和精确度
在3D高斯溅射(3DGS)领域,直接应用视角方向反射进行颜色查询会带来问题——由于每个图元独立继承模型方向和球谐(SH)颜色,视角变换容易在参数更新时产生偏移。虽然现有方法通过引入平滑约束和高阶视角相关颜色模型改善了反射表面质量,但在几何精度方面仍存在不足。然而,高斯点云建模镜面反射仍然具有挑战性。

本文提出Ref-GS,一种基于延迟渲染与光照分解的2D高斯溅射方向编码新方法,能够实现逼真的视角相关效果重建并保持几何精度。与现有将光线颜色视为辐射点积分的方法不同,我们通过延迟着色技术,在高斯属性混合后才进行视角相关颜色评估,并将方向编码仅应用于估计表面,有效降低了高斯表示的方向-视角歧义(见第4节)。实验表明,Ref-GS在合成与真实场景中均能生成最先进的新视角渲染效果,训练效率与隐式方法相当,并能在800×800分辨率下实现实时(>45 FPS)渲染

Preliminaries


1.高斯溅射

高斯喷溅是一种基于光栅化的高效3D重构和渲染的最新进展。3DGS和2DGS是基于点的表示方法,每个点与几何属性(即 Σ ∈ R 3 × 3 Σ ∈ R^{3×3} ΣR3×3、位置 μ ∈ R 3 μ ∈ R^3 μR3和不透明度 α α α)以及球谐(SH)外观属性 c c c相关联,高斯在以 μ μ μ为中心的世界空间中定义:

G ( x ∣ μ , Σ ) = exp ⁡ ( − 1 2 ( x − μ ) ⊤ Σ − 1 ( x − μ ) ) (1) \mathcal{G}(\mathbf{x}\mid\boldsymbol{\mu},\boldsymbol{\Sigma}) = \exp(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^\top\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})) \tag 1 G(xμ,Σ)=exp(21(xμ)Σ1(xμ))(1)

其中协方差矩阵被分解为旋转矩阵 R \boldsymbol{R} R 和缩放矩阵 S \boldsymbol{S} S,以便于最优化:
Σ = R S S ⊤ R ⊤ (2) \boldsymbol{\Sigma} = \boldsymbol{R} \boldsymbol{S} \boldsymbol{S}^\top \boldsymbol{R}^\top \tag2 Σ=RSSR(2)

这里最昂贵的组件是权重 𝐺。它是在每个高斯-每个像素的最细粒度下计算的,具有顺序敏感性,并且需要作为预处理进行排序。然而,一旦 𝐺 被计算出来,混合额外的每个高斯值与 𝑐 𝑖 𝑐_𝑖 ci 是非常便宜的。我们将其应用于 𝑛 𝑖 𝑛_𝑖 ni,解释为每个高斯椭球体的法向量的最短轴,以及 𝑟 𝑖 𝑟_𝑖 ri,一个控制其镜面反射强度的每个高斯标量
N ( v ) = ∑ i n i G ( Θ i , v ) , R ( v ) = ∑ i r i G ( Θ i , v ) (2) N(\mathbf{v}) = \sum_{i} n_{i} G\left(\Theta_{i}, \mathbf{v}\right), \quad R(\mathbf{v}) = \sum_{i} r_{i} G\left(\Theta_{i}, \mathbf{v}\right) \tag 2 N(v)=iniG(Θi,v),R(v)=iriG(Θi,v)(2)

请注意,3D高斯的表面定义不明确,导致表面重构出现噪声。为了解决这个问题,2D高斯喷溅(2DGS)利用标准表面模型,采用二维定向圆盘作为表面元素,并通过高斯喷溅实现高质量渲染。具体而言,2DGS并不是在像素射线与3D高斯的交点处评估高斯值,而是在二维圆盘上评估高斯值,并利用显式的射线喷溅交点,从而实现透视正确的喷溅:
G ( u ) = exp ⁡ ( − u ( r ) 2 + v ( r ) 2 2 ) (3) \mathcal{G}(\mathbf{u}) = \exp\left(-\frac{u(\mathbf{r})^2 + v(\mathbf{r})^2}{2}\right) \tag 3 G(u)=exp(2u(r)2+v(r)2)(3)

其中 u = ( u ( r ) , v ( r ) ) u = (u(r), v(r)) u=(u(r),v(r)) 是射线 r r r 与 UV 空间中的原始点之间的交点。此外,每个高斯原语都有自己的与视图相关的颜色 c c c 和 SH 系数。对于渲染,高斯根据它们的中心进行排序,并组合成具有前后 alpha 混合的像素:

c ( r ) = ∑ i = 1 c i α i G i ( u ) T i (4) \mathbf{c}(\mathbf{r}) = \sum_{i=1} \mathbf{c}_i \alpha_i \mathcal{G}_i(\mathbf{u}) T_i \tag 4 c(r)=i=1ciαiGi(u)Ti(4)

其中 T i T_i Ti 是由 $T_i = \prod_{j=1}^{i-1} \left(1 - \alpha_j \mathcal{G}_j(\mathbf{u})\right)
$ 定义的累积透射率。请注意,3DGS 和 2DGS 都是正向过程,其中场景直接投影到图像平面上。每个高斯原语在映射到屏幕空间之前被渲染并照亮在对象空间中。然而,前向渲染通常倾向于浪费大量片段着色器运行在深度复杂度高(多个原语覆盖相同的屏幕像素)的场景中,因为片段着色器输出被覆盖。

延迟渲染

在 3D 计算机图形学中,延迟着色 [8] 是一种屏幕空间着色技术,旨在显着减少与前向渲染过程相比的着色操作数量。延迟阴影是一种将最密集的渲染操作(如照明计算)推迟到渲染管道中的后期阶段的技术。这种技术涉及两个主要通道。在第一遍中,称为几何传递,场景被渲染一次以从场景中的对象中捕获各种类型的几何信息。这些数据存储在称为 G 缓冲区的纹理集合中,其中包含位置向量、颜色向量、法向量和镜面反射值等信息。因此,G 缓冲区用作场景几何存储库,可用于后续、潜在的复杂、照明计算。

在第二遍中,称为照明传递,G缓冲区纹理用于计算场景中的照明。渲染一个充满屏幕的四边形,每个片段的照明是使用存储在G缓冲区的几何信息计算的,迭代每个像素。此过程将高级片段处理与每个对象的初始渲染解耦,允许照明计算直接从 G 缓冲区纹理而不是顶点着色器中提取,并根据需要与统一变量进行额外的输入。这允许保持相同的照明计算,但通过在填充 G-buffer 之前对其进行后置来优化该过程。

Ambiguity in Directional Query 定向查询的模糊性


在先前的高斯飞溅方法中,每个基元的扩散、反射和折射分量使用视点相关的发射辐射进行简化,这大大加快了前向渲染过程,而不需要每个实例照明评估。然后,他们通过反向传播多视图光度损失,通过逆渲染框架联合优化发射辐射和几何。

我们观察到这种建模存在严重的表示歧义,如图 3 所示,显示了三个原语的集成过程。考虑 (a) 中 vanilla 3D 和 2D 高斯飞溅使用的集成处理,它使用观察方向查询与视图相关的颜色,导致漫反射材料和高频辐照度的强烈偏差通常通过复杂的原始覆盖来假;为了处理强反射,Ref-NeRF [35] 及其后续 [20, 22] 通过考虑 (b) 中的点法线来利用反射方向作为颜色查询。与 NeRF 中的连续表示不同,相邻点的属性相互正则化,高斯 Spltting 独立处理每个点。由于SH系数与原始方向的模糊性,直接应用反射方向提供了有限的增益,即通过改变SH系数可以消除将观看方向转换为反射方向。在实践中,由于辐照度在基元之间是独立的,并且多个基元有助于目标光线,这固有地引入了强烈的歧义,从而导致噪声重建。

图 2 高斯飞溅定向查询的比较。a)原始的3DGS[14]和2DGS[11]方法使用观察方向查询每个基元的SH系数,然后将视相关辐射累积为射线颜色。b) RefNeRF [35] 和最近的 GaussianShader [12] 利用观察方向和正常方向变换的反射方向作为方向查询。c) 我们首先通过首先将 SH 系数和正常积分为表面点来引入高斯延迟阴影,然后评估其与视图相关的颜色。

关键改动:用累计的统一法线来计算颜色

图 3 Ref-GS概述。从左到右:几何传递通过延迟渲染将场景属性(包括外观特征 K、粗糙度图 M 和法线图 N)渲染到缓冲区中,照明通道将反射方向  投影到球坐标  上,并通过 Sph-Mip 编码进行特征化,用于对远场照明进行建模,最后渲染通道使用张量分解 s ◦ k 来获得空间变化的视图相关效果并着色每个像素 (u, v)。

Ref-GS


我们的方法旨在重建逼真的与视图相关的效果。我们的方法的概述如图2所示。具体地说,我们提出了一个延迟高斯溅射来生成G缓冲区(第5.1节)。然后,我们引入了一个方向分解来表示空间变化的视相关效应(第5.2节)和模拟远场照明的多级球面特征网格(第5.3节)。

Deferred Gaussian

我们现在引入了一种新的延迟高斯飞溅方法来解决第 4 节中讨论的歧义问题。由于方向查询的模糊性,高斯表示的直接体积积分会导致视图依赖性模糊的影响和噪声表面。我们的解决方案是首先混合高斯属性,然后应用阴影,类似于延迟阴影。具体地说,我们对沿射线的原始属性(即,对于第i个Gaussian包括漫反射颜色 c d i ∈ R 3 c_{di}∈R^3 cdiR3、特征 f i ∈ R D f_i∈R^D fiRD、粗糙度 ρ i ∈ [ 0 , 1 ] ρ_i∈[0,1] ρi[0,1])进行alpha混合,并将属性转换为图像空间的颜色,如图3的Eq. 4和©所示。此外,每个像素的颜色被分解为漫反射分量 I d I_d Id和镜面分量,由反射方向 ω r ∈ R 3 ω_r∈R^3 ωrR3查询,表面法线 n ∈ R 3 n∈R^3 nR3。我们直接使用集成的漫反射color I d I_d Id作为射线的漫反射分量,并通过着色器 f Θ f_Θ fΘ在每个像素上获得视相关的影响,条件是空间外观特征 K ∈ R H × W × D K∈R^{H×W×D} KRH×W×D和方向特征 S ∈ R H × W × C S∈R^{H×W×C} SRH×W×C:

I = I d + f Θ ( S , K ⊗ S ) (5) \mathbf{I} = \mathbf{I}_d + f_\Theta(\mathbf{S}, \mathbf{K} \otimes \mathbf{S}) \tag 5 I=Id+fΘ(S,KS)(5)

其中⊗表示逐像素外积,得到形状为 H × W × ( D × C ) H ×W × (D × C) H×W×(D×C)的高维中间张量。

请注意,特征 K K K 表示每个像素的预期特征,并通过使用方程式4溅射每个原始特征 f i f_i fi 获得的。类似地,我们生成对应于 ρ i ρ_i ρi 和法线图 N 的粗糙度图 M。在实践中,我们将 M、N、K 视为 G 缓冲区,并将其传递给标准光栅化渲染以进行着色。

Directional Factorization

本质上,视角相关效应建模的关键是准确地捕捉空间变化的近场和远场互反射。以前的方法通常依赖于用于远场照明的全局2D环境贴图,假设所有光源都在无限的距离上。其他方法只对直接照明进行建模。这些假设不足以在近场照明下重建表面,特别是在光源或物体靠近目标物体的场景中

受 TensoRF 的启发,我们提出了一种低秩张量分解 s ◦ k 来表示空间角度视图相关效应,其中 ◦ 表示外积。如图 2 所示,我们使用一个简单的向量外积将空间特征向量 k ∈ R D k ∈ R^D kRD 和方向特征向量 s ∈ R C s ∈ R^C sRC 连接起来形成一个块矩阵,然后将其展平为一维向量并馈送到轻量级 MLP 解码器以进行最终颜色预测。空间特征k和方向特征s的外积能够分解几何和照明,同时有效地捕获全局照明、阴影和自遮挡等基本信息。我们基于因式分解的模型对于表示复杂反射场景中空间变化的视相关效应简单而有效,增强了新视图合成和表面重建。此外,这种分解减少了每个高斯原语的特征通道,显著降低了体绘制和场景表示的计算开销。

我们基于因式分解的模型对于表示复杂反射场景中空间变化的视相关效应简单而有效,增强了新视图合成和表面重建。此外,这种分解减少了每个高斯原语的特征通道,显著降低了体绘制和场景表示的计算开销。

Far-field Lighting

我们现在提出了一种新颖的Sph-Mip 编码,用于对高频远场照明进行建模,使用可学习的多级球形特征网格,称为 Sph-Mip 网格。我们利用经度纬度格(Long.-Lat.)将特征点分布在球面上,并将它们展开为 2D 特征网格中以实现有效的索引。给定Gbuffer {M, N, K},像素(u, v)的正常n = N(u, v),粗糙度ρ = M(u, v),我们有:

s = Sph-Mip ( ω r , ρ , M ) (6) \mathbf{s} = \text{Sph-Mip}\left(\omega_{r}, \rho, \mathcal{M}\right) \tag 6 s=Sph-Mip(ωr,ρ,M)(6)

其中 ω r ω_r ωr 表示表面法线 n n n 和观察方向 ω i ω_i ωi 反射的反射方向。

(这里区别于 3DGS-DR 和 GSshader 使用的 nvdiffrec 中的环境贴图采样方式)
请注意,如图 2 所示,Sph-Mip 网格是三维的,方向坐标 (θ, φ) 对应于网格的 XY 轴,而 Z 轴代表粗糙度 ρ 方差。给定栅格化缓冲区,我们首先计算每个像素对应的球坐标(θ, φ):

θ = arccos ⁡ ( ω r z ( ω r x ) 2 + ( ω r y ) 2 + ( ω r z ) 2 ) ∈ [ 0 , π ] \theta = \arccos\left(\frac{\omega_{r}^{z}}{\sqrt{(\omega_{r}^{x})^2 + (\omega_{r}^{y})^2 + (\omega_{r}^{z})^2}}\right) \in [0,\pi] θ=arccos((ωrx)2+(ωry)2+(ωrz)2 ωrz)[0,π]

ϕ = arctan ⁡ 2 ( ω r y ω r x ) ∈ [ − π , π ] (7) \phi = \arctan2\left(\frac{\omega_{r}^{y}}{\omega_{r}^{x}}\right) \in [-\pi,\pi] \tag 7 ϕ=arctan2(ωrxωry)[π,π](7)

然后,给定表面粗糙度ρ,我们沿粗糙度维度插值特征。在实践中,我们在特征查询期间将不同级别的网格调整为相同的分辨率,使用三线性插值促进有效的三维插值,并在片段着色器中使用坐标 ( θ , φ , ρ ) (θ,φ,ρ) (θ,φ,ρ)

对于 mipmap 分辨率,我们以 H M × W M × C H_M × W_M × C HM×WM×C 的最高分辨率定义基本级别 M L 0 M_{L_0} ML0,其中 H M H_M HM W M W_M WM 和 C 分别表示通道的高度、宽度和数量。虽然其他级别的分辨率 ( M L i , i = 1 , 2 , . , N M_{L_i} , i = 1, 2,., N MLi,i=1,2,.,N ) 沿高度和宽度维度除以 2 倍。

Experiments and Results

数据集

我们在几个合成数据集和真实数据集上评估我们的方法。对于合成数据集,我们在 NeRF Synthetic [25] 上评估我们的模型,其中包含具有真实非朗伯材料的复杂几何形状的场景。类似地,我们使用Shiny Blender[35]和Glossy Synthetic[22]在反射对象上评估我们的模型。对于真实世界的数据集,我们使用从[35]捕获的Shiny Real数据集,以及MipNeRF360[4]和Tanks & Temples[16]反射的场景。此外,我们使用包含未知几何形状的折射物体的Glass & Ball[5],来展示我们的方法对不同材料的泛化能力。

基线与指标

我们将我们的方法与以下基线进行比较:Ref-NeRF(Nerf-Based),ENVIDR 和 NeRO(SDF-Based),以及GSShader、3iGS和3DGS-DR(GS-Based)。我们根据它们的公共代码和配置训练了这些模型。渲染质量的评估指标包括PSNR、SSIM和LPIPS。此外,我们使用平均角度误差(MAE)来评估法线精度。
表 1 Shiny Blender和Shiny Real数据集[35]上的定量NVS比较。我们的方法与基于高斯的方法和基于先验反射对象重建方法相当。“花园圈”缩写为“花园”。

表 2 NeRF Synthetic [25] 和 Glossy Synthetic [22] 数据集的定量 NVS 比较。由MAE◦评估的Shiny Blender (ShinyB)[35]数据集上的正常重建质量。GaussianShader[12]

实现细节

所有实验均在具有 32GB VRAM 的单个 Tesla V100 GPU 上进行。要优化的参数包括 MLP f Θ f_Θ fΘ、mipmap M M M 和每个 2D 高斯的参数(例如特征 f i ∈ R 4 f_i ∈ R^4 fiR4)。entiable splatting 和基于梯度的反向传播。使用 Adam 优化器 [15] 进行了超过 30,000 次迭代的优化。我们使用 PyTorch 框架实现我们的 Sph-Mip,并使用 Nvdiffrast 库进行有效的 mipmap 查询。Sph-Mip编码中mipmap M L 0 M_{L_0} ML0的基本水平形状根据经验设置为 H M = 512 H_M = 512 HM=512 W M = 1024 W_M = 1024 WM=1024 C = 16 C = 16 C=16,层数为 N = 9 N = 9 N=9。对于我们的规范颜色预测的隐式表示,我们使用了一个大小为256的隐藏层的轻量级MLP。我们使用ReLU激活函数。我们建议用与2DGS相同的损失函数L来训练我们的模型。

比较

合成数据集的定量结果报告在表1 和 表2,其中高质量的反射建模依赖于精确的法线估计,如图4所示。此外,我们在表1中报告了我们的模型在相同硬件上的训练和渲染速度(测试)。将其与现有的基于高斯的方法进行比较。我们的方法实现了质量和训练速度之间的平衡。尽管我们的模型的速度不如 3DGS 快,但它仍然具有竞争力并实现实时渲染速度。为了证明我们的方法在真实场景中的有效性,而不仅仅是小对象,我们在RefNeRF[35]的Shiny Real数据集上评估了我们的渲染,如表1和图5。

此外,图6的定性结果表明,对于折射物体的真实场景,我们的模型在Eikonal Fields[5]的Glass和Ball数据集上优于3iGS[34]和3DGS-DR[46]。

图6 折射场景的比较结果。Glass &Ball[5]真实场景的正常重建和渲染结果。我们的方法的性能明显优于 3DGSDR [46] 和 3iGS [34]。

Ablation Study


图7。“花园圈”场景[35]的定性消融。使用 G 缓冲区而不是 Sph-Mip(即 w/o Sph-Mip)或没有延迟阴影(即 w/o DS),无法准确重建尖锐的细节,例如球体中反射的树分支。有必要使用多级球形特征网格策略(即 w/o mipmap),否则粗糙的表面将无法重建,并且在渲染过程中会出现伪影。此外,方向分解(即 w/o K ⊗ S)对于建模近场互反射至关重要。

我们现在对Shiny Blender和NeRF Synthetic数据集进行消融研究。表3报告了延迟着色、Sph-Mip 编码和方向分解的定量结果。图7显示了新视图合成和表面重建的消融比较。

Sph-Mip 我们首先通过将 G 缓冲区组件直接馈送到解码 MLP:fΘ(M, N, d) 来分析 Sph-Mip 的影响,其中 d ∈ RH×W ×3 是视图方向。如图7和表3所示。与直接使用 G 缓冲区作为输入相比,我们的 Sph-Mip 编码有效地对高频视图相关外观进行建模。

Mipmap 为了验证多级球形特征网格策略的有效性,我们将 mipmap M 替换为与 mipmap ML0 的基本级别相同形状的 2D 特征图(即 w/o mipmap)。图 7 显示没有 mipmap 的方法无法恢复准确的几何形状并在渲染粗糙表面时产生伪影,主要是因为现实世界的场景通常不包含单一材料。

延迟着色。我们通过应用标准体绘制来消除延迟着色(即 w/o DS)。如图7所示,延迟阴影提供了更准确的镜面反射和更好的表面重建质量。

定向分解 我们研究了所提出的方向分解(即 w/o K ⊗ S)。我们直接使用方向特征 S 作为着色器的输入: f Θ ( S ) f_Θ(S) fΘ(S)。如图 7 所示,仅使用远场特征 S 无法重建相互反射。

总结


我们提出了Ref-GS来解决二维高斯飞溅中与视图相关的效果,为开放世界场景实现逼真的渲染和精确的几何恢复。我们的技术贡献是一种新颖的延迟高斯渲染管道,它集成了球形 Mip 网格来有效地表示表面粗糙度,并采用几何照明分解通过向量外积显式连接几何和照明。

Appendix


实现细节

为了训练,我们使用 PyTorch 框架并在具有 32GB 内存的单个 Tesla V100 上进行训练。我们的代码建立在 2D 高斯飞溅 (2DGS) 代码库之上。对于真实场景,我们建议使用与 3DGS-DR 相同的球面域策略来训练我们的模型以进行公平比较。这种方法可以减少训练期间的背景干扰。仅从有限视点捕获的背景对象表现出与反射对象相似的行为,这干扰了我们的 Sph-Mip 的拟合。

网络

浅层MLP(多层感知机) f Θ f_Θ fΘ的设计目标是对由Sph-Mip编码生成的方向特征 S ∈ R H × W × 16 S∈R^{H×W×16} SRH×W×16以及高维中间张量K⊗S(其维度为H×W×64)进行非线性映射。该MLP接收一个具有16+64特征维度的输入,并将其输入到一个具有以下结构的2层MLP中:

​​网络架构细节​​:
包含两个隐藏层,每层配置256个神经元
每个隐藏层后接ReLU(修正线性单元)激活函数
输出层采用指数函数作为激活函数,用于预测视角相关的辐射亮度值

​​后处理流程​​:
在计算渲染损失之前,应用γ色调映射函数γ(·)
将预测的颜色值转换到标准的sRGB色彩空间

I = γ ( I d + f Θ ( S , K ⊗ S ) ) (8) \mathbf{I} = \gamma\left(\mathbf{I}_{d} + f_{\Theta}(\mathbf{S}, \mathbf{K} \otimes \mathbf{S})\right) \tag 8 I=γ(Id+fΘ(S,KS))(8)

优化

高斯每个位置 μ ∈ R 3 μ ∈ R^3 μR3,尺度 s ∈ R 2 s ∈ R^2 sR2 和协方差作为旋转 q ∈ R 4 q ∈ R^4 qR4,不透明度 α ∈ R α ∈ R αR,漫反射颜色 c d ∈ R 3 c_d ∈ R^3 cdR3,粗糙度 ρ ∈ [ 0 , 1 ] ρ ∈ [0, 1] ρ[0,1],特征 f ∈ R 4 f ∈ R^4 fR4 与基础 MLP 的网络权重和视图相关辐射的输出头一起优化。我们使用默认参数的 Adam 优化器。此外,我们遵循原始 2DGS 提出的默认拆分和修剪计划。

Loss

我们在训练管道中有多个损失项,这些损失项主要改编自 2DGS,我们将在此处简要概述它们及其权重。与 2DGS 一样,我们使用 L1 损失和 D-SSIM [38] 损失来监督 RGB 颜色,λ = 0.2:

L = ( 1 − λ ) L 1 + λ L D − S S I M (9) \mathcal{L} = (1-\lambda)\mathcal{L}_{1} + \lambda\mathcal{L}_{D-SSIM} \tag 9 L=(1λ)L1+λLDSSIM(9)

在2DGS之后,采用深度失真损失和法向一致性损失来细化场景的2DGS表示的几何性质。

L d = ∑ i , j ω i ω j ∣ z i − z j ∣ L n = ∑ i ω i ( 1 − n i ⊤ N ^ ) 0 (1) \mathcal{L}_{\mathrm{d}}=\sum_{i, j} \omega_{i} \omega_{j}\left|z_{i}-z_{j}\right| \quad \mathcal{L}_{n}=\sum_{i} \omega_{i}\left(1-\mathbf{n}_{i}^{\top} \widehat{\mathbf{N}}\right) \tag 10 Ld=i,jωiωjzizjLn=iωi(1niN )0(1)

这里, ω i ω_i ωi 表示第 i 个交集的混合权重。 z i z_i zi 表示交点的深度。 n i n_i ni 是面向相机的 splat 的法线。 N ^ \hat N N^是由深度图的梯度估计的法线。总损失为:

L = L r g b + λ d L d + λ n L n \mathcal L = \mathcal L_{rgb} + \lambda_d \mathcal L_d + \lambda_n \mathcal L_n L=Lrgb+λdLd+λnLn

λ d = 100 λ_d = 100 λd=100, λ n = 0.05 λ_n = 0.05 λn=0.05.

Limitations

虽然我们的方法展示了使用轻量级 MLP 进行最终颜色预测的有效性能,但与 2DGS 相比,它会导致渲染速度较慢,并且由于依赖于神经解码器,因此难以集成到标准 CG 渲染引擎中。然而,纹理网格烘焙等转换技术可以促进集成和受益于我们的重建管道的薄表面建模和渲染能力。

额外结果

在本节中,我们提出了额外的视觉结果来证明Ref-GS在重建和渲染光泽表面方面的能力,展示了所提出数据集中不同场景的镜面反射优越的视觉质量和准确的预测法线。

Shiny Blender Dataset

表5 提供了 Shiny Blender [35] 数据集上所有场景的正常估计结果。对于 3iGS,我们使用从渲染的深度图派生的梯度法线进行评估。

Glossy Synthetic Dataset

我们在 Glossy Synthetic [22] 数据集上展示了新颖的视图合成结果。基于峰值信噪比(PSNR)、结构相似性指数测度(SSIM)[38]和学习感知图像补丁相似度(LPIPS)[50]的定量评价。出现在选项卡中。6. 我们的方法在大多数场景中都优于现有的基于高斯的方法[12,34,46,53]。

Glossy Real Dataset

我们在 Glossy Real [22] 数据集上展示了几何重建结果,以进一步验证我们方法的稳健性和准确性。我们可视化重建结果,如图9所示。为了更全面地了解我们的方法的性能,请参阅补充网页上提供的视频。

Nerf Synthetic Dataset

NeRF Synthetic [25] 数据集的定量结果报告在表中。7. 我们的方法与基于高斯的方法[12,34,46,53]在数值和视觉上可比较的结果,证明了我们的方法在渲染一般对象方面的有效性。

额外消融

我们在 表 8 中提供了合成测试的更多消融结果。为了更清楚地展示二维高斯表示的独特优势,我们用3DGS[14]替换了2DGS[11],使用最短轴作为平面法线,同时保持其余不变进行比较,如表的前两行所示。8. 此外,我们对 Sph-Mip 的网格大小 N 进行了消融研究,如表8中所示值得注意的是,3DGS-DR[46]通过引入带有简单阴影模型的延迟阴影来提高GaussianShader[12]的性能。“w/oK⊗S”表明 Sph-Mip 编码可以进一步提高渲染质量。此外,“w/o DS”的结果表明,我们的方法优于GaussianShader的显式BRDF

真实世界捕获的其他结果

在本节中,我们扩展了对我们提出的方法的评估,以包括它在Rodriguez等人[30]和Kopanas等人[17]数据集上的性能。图 10 中的定性比较表明 Ref-GS 很好地扩展到真实场景,与现有的基于高斯的方法相比,对复杂现实世界环境产生更清晰的镜面反射。

图 10 与Rodriguez等人[30]和Kopanas等人[17]数据集上的3DGS-DR[46]和3iGS[34]相比,我们的方法的中间组件可视化的其他结果;放大查看差异。(Corner Street, 1st 行) 我们的方法有效地模拟了车身和挡风玻璃上的真实反射。(Carpenter, 2nd 行) 汽车屋顶上远处场景的反射以令人印象深刻的准确性呈现。(Hallway Lamp, 3rd 行) 高频细节被很好地保存,从而能够对近场内容进行逼真的描述,包括精确的反射。

场景分解和编辑

图8说明了场景的渲染分解结果。对于具有强镜面效应的反射物体,我们的方法可以有效地分解与视图无关的漫反射颜色和视图相关的镜面颜色。此外,预测的材料性能(例如粗糙度 ρ)和远场照明 M 也非常合理。此外,我们可以通过调整 ρ 值来合理地修改场景的粗糙度。

图8。场景分解和材料编辑的可视化。我们的模型将合成场景的外观分解为可解释的组件。Ref-GS有效地将与视图无关的漫反射颜色和视图相关的镜面颜色与多视图训练图像分离。此外,我们可以编辑汽车的漫反射颜色,而不影响其光泽表面(顶行)上的镜面反射。通过修改粗糙度 ρ,我们可以通过 Sph-Mip 插值(底行)获得不同层次的方向特征 s。

相关文章:

  • 【React Native 性能优化:虚拟列表嵌套 ScrollView 问题全解析】
  • React Native【实战范例】网格导航 FlatList
  • HarmonyOS 5对React Native有哪些新特性?
  • 代码训练LeetCode(33)字符串首次匹配
  • Java集合 - LinkedList底层源码解析
  • python第51天
  • 小型化边缘计算设备 特点
  • Untiy打包安卓踩坑
  • 让 Deepseek 写电器电费计算器小程序
  • 【Docker基础】Docker核心概念:仓库(Registry)详解
  • 让 Deepseek 写电器电费计算器(html版本)
  • 微信小程序生成小程序码缓存删除
  • 朴朴超市小程序 sign-v2 分析
  • 嵌套滚动交互处理总结
  • pikachu——php反序列化
  • 服务器代码知识点补充
  • 用户通知服务,轻松实现应用与用户的多场景交互
  • 驱动开发前传及led驱动(s5pv210)
  • 使用OceanBase的Oblogminer进行日志挖掘的实践
  • NLP进化史:从规则模板到思维链推理,七次范式革命全解析
  • 上海专业做网站公司报价/上海牛巨微seo
  • 怎样创建网站和网页/中国网站排名100
  • 鹰潭做网站的/信息流投放平台
  • 做地图的网站/网上营销培训课程
  • 视频素材交易网站建设/品牌推广与传播怎么写
  • 一个网站可以做几个关键词/搜索引擎优化seo专员