当前位置: 首页 > news >正文

论文阅读:PolarFree Polarization-based Reflection-Free Imaging

今天介绍一篇利用偏振信息去反光的文章,这是香港中文大学 xue tianfan 老师 CVPR 2025 的一个工作。

Abstract

由于复杂的光交互作用,反射消除是一项具有挑战性的任务。其中,反射会遮蔽重要细节并阻碍场景理解。偏振特性自然地为区分反射光和透射光提供了强大的线索,从而能够更精确地实现反射消除。然而,现有方法往往依赖小规模或合成数据集,这些数据集无法捕捉真实世界场景的多样性和复杂性。为此,我们构建了一个大规模数据集 PolaRGB,用于基于偏振的 RGB 图像反射消除,这使我们能够训练出可在广泛真实场景中有效泛化的模型。PolaRGB 数据集包含 6,500 对精准对齐的混合透射图像对,规模是现有偏振数据集的 8 倍,并且是首个同时包含在不同光照条件下、跨多种室内外环境拍摄的 RGB 图像和偏振图像的数据集。此外,为了充分利用偏振线索在反射消除中的潜力,我们引入了 PolarFree 方法,该方法利用扩散过程生成无反射线索,以实现精准的反射消除。大量实验表明,PolarFree 在具有挑战性的反射场景中显著提升了图像清晰度,为偏振成像和反射消除设定了新的基准。
在这里插入图片描述

Introduction

反射消除算法 [1,19,30,34,38,41] 可去除拍摄图像中不必要的反射,在自动驾驶 [12] 和摄影 [11,43] 等应用中发挥关键作用。当通过窗户或玻璃等半反射体成像时,这类问题普遍存在 —— 重叠的反射可能会遮蔽我们想要捕捉的场景重要细节。该问题通常被建模为透射层 TTT 与反射层 RRR 的线性组合 [10,11]:

M=αtT+αrR(1) M = \alpha_t T + \alpha_r R \tag{1} M=αtT+αrR(1)

其中 MMM 为捕获的混合图像,而 αr,αt\alpha_r, \alpha_tαr,αt 是由光衰减导致的混合系数。

偏振图像传感器正成为主流,使用户能够通过单次拍摄实时轻松捕获偏振图像 [32]。然而,现有方法 [10,11,24,46] 通常依赖基于强度的线索(如像素亮度和颜色梯度)来区分透射层与反射层。这些方法面临挑战,因为反射消除是一个高度病态的逆问题 [21]—— 需要从单一观测中恢复两个未知层(反射层和透射层)。偏振特性提供了有价值的基于物理的线索 [27,29] 以缓解病态问题(图 1),而透射光会保留独特的偏振度(图 2b)。这种差异为分离两层提供了关键信号。值得注意的是,在 Brewster 布儒斯特角下(图 2c),反射光呈完全偏振状态,从而实现有效的反射消除 [2]。

在这里插入图片描述

  • 图 2 (a) 和 (b) 半反射体在反射和折射过程中会将非偏振光转换为偏振光,这一现象无法被标准 RGB 相机检测,但偏振相机可利用该特性完成反射抑制任务。© 在布儒斯特角 [2] 下,偏振片可将反射光减至最弱。

尽管偏振图像技术取得了显著进展,但基于偏振的反射消除技术面临的一个关键挑战是缺乏大规模、高质量的数据集。现有的偏振反射消除数据集 [18,39] 在规模和多样性上存在局限,其依赖的样本量较小(<1000)或为合成样本,无法捕捉真实世界中光照条件、材料和场景的复杂性。此外,这些数据集通常不包含颜色信息,进而降低了其在真实反射消除任务中的适用性。因此,迫切需要一个大规模、综合性的数据集,该数据集需包含在多样真实环境中捕获的 RGB 图像和偏振图像,以推动基于偏振的反射消除技术的发展。

为填补这一空白,我们引入了 PolaRGB—— 一种专为基于偏振的反射消除而收集的新型数据集。如表 1 所示,PolaRGB 包含 6500 对高质量、精准对齐的 RGB - 偏振图像对,规模是先前数据集 [18] 的 8 倍。我们的数据集覆盖了多样化的场景、光照条件和曝光设置,且通过配备偏振彩色图案的商用现成相机采集,以确保其在现实世界中的适用性。PolaRGB 同时提供混合图像和真实透射层,支持精确的反射分离,并显著提升了真实场景下反射消除的有效性。

此外,由于拍摄角度的随机性、场景变化和光照条件的改变,从偏振数据中提取无反射信息具有挑战性 [18,25,39]。为解决这一问题,我们利用扩散模型 [3,6,8] 强大的生成能力来生成无反射线索。该扩散模型从偏振图像中提取并优化无反射先验信息,有效指导反射消除过程,从而产生精确且鲁棒的无反射结果。

具体而言,PolarFree 包含两个步骤:先验生成步骤和反射消除步骤。首先,在先验生成步骤中,我们利用扩散模型基于偏振和 RGB 输入生成无反射先验。该策略不仅能指导 RGB 图像中反射的精准分离,还能恢复先前方法 [11,15,46] 可能遗漏的背景细节。接下来,反射消除步骤利用该先验有效去除反射,确保透射层的精准还原。此外,我们在频域引入基于相位的损失函数,以缓解半反射导致的色彩差异,引导网络专注于反射消除而非色彩调整。这些组件使 PolarFree 能够在各种真实场景中实现鲁棒的反射抑制,同时保持透射层的清晰度和完整性。

PolaRGB Dataset

Analysis

尽管存在一些基于偏振的反射消除数据集 [18,39],但它们面临主要局限性:(1)这些数据集通常为合成生成 [25,39],由于完美模拟偏振现象极为困难,其在真实偏振场景中的泛化能力可能不佳;(2)它们通常在规模和多样性上受限(<1000 个样本),场景变化有限,这制约了模型的鲁棒性和泛化能力 [18,39];(3)它们缺乏 RGB 数据 [18,39],降低了这些数据集的实用价值。

我们基于偏振的反射消除数据集 PolaRGB 通过以下关键特性解决了所有这些局限性,如图 3 所示。它具有以下优势:(1)包含经过完美空间对齐的真实拍摄图像。我们通过三步流程实现像素级对齐:精心的拍摄设置、手动筛选和单应性变换,所有步骤均在原始数据空间中进行,以避免去马赛克伪影(见图 4b 及补充材料中的更多细节)。(2)包含大规模多样化场景。收集的数据集覆盖了广泛的室内和室外环境,包含四种不同的反射类型,包括平滑反射、尖锐反射、高亮度反射和细微反射(见图 3b)。(3)具有广泛的数据模态。我们的数据集提供了混合图像和透射图像的配对,同时包含偏振和 RGB 拍摄数据,经过精确对齐并提供原始格式和 RGB 格式(见图 3d)。

在这里插入图片描述

  • 图 3 (a) 场景的层级结构如环形图所示,图例标注了样本数量及子集类型。
    (b) 典型场景展示了不同反射条件:
    Ⅰ. 反射与折射的平滑混合;
    Ⅱ. 混合成分的突变反射;
    Ⅲ. 反射主导透射;
    Ⅳ. 反射极弱或无反射。
    © 基于视频的采集方法(细节见第 3 节)。
    (d) 我们提供角度 ϕ=0°、45°、90° 和 135° 的偏振图像,以及导出的线偏振角(AoLP)、线偏振度(DoLP)和对齐良好的非偏振图像。数据集还包括真实透射层和估计反射层,均提供原始格式和 RGB 格式。
Processing Pipeline

我们利用一种高效的基于视频的采集流程来收集数据集,如图 3c 所示。首先,我们捕获仅透射的图像 TrawT_{raw}Traw 作为真实值。然后,我们将一块半反射玻璃板放置在场景前方并持续旋转,以捕获混合图像 MrawM_{raw}Mraw

如图 4 所示,我们使用一款带有彩色拜耳图案的焦平面分割偏振相机来同步捕获偏振信息和 RGB 信息。

在这里插入图片描述

  • 图 4

在获取原始混合图像 MrawM_{raw}Mraw 和透射图像 TrawT_{raw}Traw 后,我们按图 4a 所示在原始域和 RGB 域中依次处理图像。在原始域中,我们首先对齐 Mraw 和 Traw,以校正由光折射引起的空间错位。这通过将图像分离为不同的偏振角度和颜色通道来完成,然后对每个通道应用仿射变换矩阵,以避免直接对齐导致的混叠,如图 4b 所示。接下来,我们对对齐的图像进行偏振分离,获得四个偏振图像(0°、45°、90° 和 135°),并使用马吕斯定律 [27,29] 对其求和,生成场景的非偏振图像。最后,我们通过在边缘空间中搜索最佳混合系数 αr\alpha_rαrαt\alpha_tαt 来估计反射图像,如公式 1 所示。

接下来,我们对处理后的原始图像进行去马赛克处理,以获得混合图像、透射图像和反射图像,每类图像均包含四个偏振图像和非偏振 RGB 图像。此外,我们计算斯托克斯参数(见 4.1 节)以估计线偏振角(AOLP)和线偏振度(DOLP),这些参数随后将用于反射消除。

Method

Problem Formulation

Object. 给定一幅 RGB 图像及其对应的偏振图像,我们旨在利用独特的偏振特性来恢复该 RGB 图像的透射层。我们的测量数据包括空间对齐的 RGB 图像和偏振图像,其中偏振图像是在四个不同角度(0°、45°、90° 和 135°)下捕获的。这四个角度提供了全面的偏振测量 [30],使我们能够计算出对分层至关重要的偏振特征。

对于产生混合图像的半反射表面,观测到的强度 IMϕ(x)I^{\phi}_M(x)IMϕ(x) 可分解为反射光强 IRϕ(x)I^{\phi}_R(x)IRϕ(x) 和透射光强 ITϕ(x)I^{\phi}_T(x)ITϕ(x),表达式为:
IMϕ(x)=αRIRϕ(x)+αTITϕ(x)(2) I^{\phi}_M(x) = \alpha_R I^{\phi}_R(x) + \alpha_T I^{\phi}_T(x) \tag{2} IMϕ(x)=αRIRϕ(x)+αTITϕ(x)(2)

当相机前放置角度为 ϕ\phiϕ 的线偏振片时,捕获的强度 IMϕ(x)I^{\phi}_M(x)IMϕ(x) 可表示为:
IMϕ(x)=α(θ;ϕ;ϕ⊥)IRϕ(x)+(1−α(θ;ϕ;ϕ∥))ITϕ(x)(3) I^{\phi}_M(x) = \alpha(\theta; \phi; \phi_{\perp}) I^{\phi}_R(x) + (1 - \alpha(\theta; \phi; \phi_{\parallel})) I^{\phi}_T(x) \tag{3} IMϕ(x)=α(θ;ϕ;ϕ)IRϕ(x)+(1α(θ;ϕ;ϕ))ITϕ(x)(3)

公式中 α(θ;ϕ;ϕ⊥)\alpha(\theta; \phi; \phi_{\perp})α(θ;ϕ;ϕ)(1−α(θ;ϕ;ϕ∥))(1 - \alpha(\theta; \phi; \phi_{\parallel}))(1α(θ;ϕ;ϕ)) 是依赖于入射角 θ\thetaθ 的偏振相关混合系数,ϕ⊥\phi_{\perp}ϕϕ∥\phi_{\parallel}ϕ 分别为反射光与透射光的特征偏振方向(如布儒斯特角下反射光的水平偏振方向),混合系数 α(⋅)\alpha(\cdot)α()、反射光强 IRϕ(x)I^{\phi}_R(x)IRϕ(x)、透射光强 ITϕ(x)I^{\phi}_T(x)ITϕ(x) 相互依赖,直接求解非常困难,此外,观测强度与底层反射分量和透射分量之间的关系具有高度非线性,并受多种因素影响 [39]。为解决这一问题,我们利用斯托克斯参数 [18],其为表示和分析偏振光提供了有效方法,从而实现更鲁棒的反射光与透射光分离。

Stokes Parameters. 为捕捉场景中的偏振效应,我们使用斯托克斯参数 [S0,S1,S2][S_0, S_1, S_2][S0,S1,S2],其可通过特定偏振角度(0°、45°、90° 和 135°)的光强测量值推导得出:

{S0=(I0∘+I45∘+I90∘+I135∘)/2,S1=I0∘−I90∘,S2=I45∘−I135∘(4) \begin{cases} S_0 = (I_{0^\circ} + I_{45^\circ} + I_{90^\circ} + I_{135^\circ}) / 2, \\ S_1 = I_{0^\circ} - I_{90^\circ}, \\ S_2 = I_{45^\circ} - I_{135^\circ} \end{cases} \tag{4} S0=(I0+I45+I90+I135)/2,S1=I0I90,S2=I45I135(4)

在此,S0S_0S0表示光的总强度,S1S_1S1S2S_2S2基于这些关键角度下的强度差异,提供关于光的线偏振态的信息。利用斯托克斯参数,我们按如下方式计算线偏振度(DOLP)和线偏振角(AOLP):

{DOLP(x)=S1(x)2+S2(x)2S0(x),AOLP(x)=12atan2(S2(x),S1(x))(5) \begin{cases} DOLP(x) = \sqrt{\dfrac{S_1(x)^2 + S_2(x)^2}{S_0(x)}}, \\ AOLP(x) = \dfrac{1}{2} \text{atan2}\left(S_2(x), S_1(x)\right) \end{cases} \tag{5} DOLP(x)=S0(x)S1(x)2+S2(x)2,AOLP(x)=21atan2(S2(x),S1(x))(5)

在这种表述中,线偏振度(DOLP)描述了偏振光相对于总光强的比例,这有助于指示场景中的反射程度。另一方面,线偏振角(AOLP)揭示了偏振光的方向,使我们能够更有效地区分反射分量和透射分量,如图 3d 所示。通过利用 0°、45°、90° 和 135° 下的光强测量值,这些参数为分离半反射场景中混合的反射层和透射层提供了有价值的线索 。

在这里插入图片描述

  • 图 5 PolarFree 流程概述 (a) 在推理阶段,PolarFree 将偏振图像和 RGB 图像作为输入,送入条件扩散模型生成先验z^0\hat{z}_0z^0。生成的先验与输入数据共同输入反射去除主干网络FremoveF_{\text{remove}}Fremove,完成反射去除。(b) PolarFree 采用两阶段训练策略:(1) 先验编码器从干净透射图像和偏振线索中提取无反射先验z0z_0z0,为第二阶段的条件扩散模型提供监督信号;(2) 条件扩散模型在第一阶段先验的监督下,学习对含噪图像逐步去噪,确保反射分离的鲁棒性。
PolarFree Network

为实现高质量的反射去除并有效利用偏振信息,我们引入了 PolarFree,这是一个经过精心设计的两步式网络,每一步都针对反射去除挑战的一个不同方面。受 [3] 的启发,我们利用扩散模型来生成反射去除的先验。如图 5 所示,在推理过程中,第一步利用条件扩散模型提取无反射先验,从偏振数据中有效分离出关键细节。第二步将这些先验与 RGB 输入相结合,引导网络准确分离反射并提升清晰度,即便在复杂的现实环境中也是如此 。

Prior Generation. 如图 5a 所示,在第一步中,我们从随机初始化的噪声 n 开始,通过条件扩散模型 FdiffF_{\text{diff}}Fdiff 对其逐步去噪。

z^0=Fdiff(n∣Mcond)(6) \hat{z}_0 = \mathcal{F}_{\text{diff}}(n \vert M_{\text{cond}}) \tag{6} z^0=Fdiff(nMcond)(6)

其中,z^0\hat{z}_0z^0 是生成的先验,Mcond={Mpolar,Manolp,Mdolp,Mrgb}M_{\text{cond}} = \{M_{\text{polar}}, M_{\text{anolp}}, M_{\text{dolp}}, M_{\text{rgb}}\}Mcond={Mpolar,Manolp,Mdolp,Mrgb} 代表混合图像,nnn 是初始噪声。通过迭代去噪过程,扩散模型以偏振和 RGB 数据为条件,逐步优化噪声图像,从而生成反射先验。

去噪过程遵循去噪扩散概率模型(DDPM)框架 [8],并采用 U-Net 架构来预测噪声。在每个时间步 ttt,U-Net 接收含噪中间结果ztz_tzt,并输出噪声估计ϵθ(zt,t)\epsilon_\theta(z_t, t)ϵθ(zt,t),以此预测在该时间步添加的噪声。这一过程可表述为:

zt−1=1αt(zt−βt1−αˉtϵθ(zt,Mcond,t))+σtzϵ(7) z_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( z_t - \frac{\beta_t}{\sqrt{1 - \bar{\alpha}_t}} \epsilon_\theta(z_t, M_{\text{cond}}, t) \right) + \sigma_t z_\epsilon \tag{7} zt1=αt1(zt1αˉtβtϵθ(zt,Mcond,t))+σtzϵ(7)

其中,αt\alpha_tαtβt\beta_tβt 控制跨时间步的噪声调度,σt\sigma_tσt 是标准差,zϵz_\epsilonzϵ 是从标准高斯分布中采样的噪声。αˉt\bar{\alpha}_tαˉtαt\alpha_tαt 的累积乘积,用于表示时间步 t 时的噪声水平。通过这种方式,U-Net 以基于偏振的测量输入 McondM_{\text{cond}}Mcond 为条件,在每一步中逐步去除噪声。这一过程持续进行,直到噪声被完全去除,最终得到样本 z^0\hat{z}_0z^0,该样本代表从条件输入中提取的无反射先验分布 。

Reflection Removal. 如图 5a 所示,一旦获得先验z^0\hat{z}_0z^0,PolarFree 的第二步就是分离透射层和反射层。模型 FremoveF_{\text{remove}}Fremove 利用 MpolarM_{\text{polar}}MpolarMaolpM_{\text{aolp}}MaolpMdolpM_{\text{dolp}}Mdolp 提供的偏振线索,将透射特征与反射特征分离,可表示为:

T^rgb=Fremove(z^0,Mcond)(8) \hat{T}_{rgb} = \mathcal{F}_{\text{remove}}(\hat{z}_0, M_{\text{cond}}) \tag{8} T^rgb=Fremove(z^0,Mcond)(8)

其中,Fremove\mathcal{F}_{\text{remove}}Fremove 是一个反射去除神经网络。这一步确保最终输出包含清晰可辨的透射分量和反射分量,有助于在具有挑战性的反射场景下实现高质量的图像重建。

Training

为了训练我们的 PolarFree(特别是为了解决扩散模型缺乏合适真实标签的难题 ),我们采用了一种两阶段训练策略,正如图 5b 所示。该策略包含两个连续的目标:学习提取无反射先验,以及学习生成无反射先验。

First Stage. 在第一阶段,我们训练一个编码器来提取无反射信息的先验z0z_0z0,该先验将在第二阶段作为扩散模型的监督信号。具体而言,我们将真实透射图像Tcond={Tpolar,Tanolp,Tdolp,Trgb}T_{\text{cond}} = \{T_{\text{polar}}, T_{\text{anolp}}, T_{\text{dolp}}, T_{\text{rgb}}\}Tcond={Tpolar,Tanolp,Tdolp,Trgb}输入编码器 E\mathcal{E}E,得到z=E(Mcond,Trgb)z = \mathcal{E}(M_{\text{cond}}, T_{\text{rgb}})z=E(Mcond,Trgb)。这个 zzz 包含了丰富的偏振相关线索的无反射信息。随后,z0z_0z0 作为条件输入到反射去除主干网络 FremoveF_{\text{remove}}Fremove 中,以预测干净的透射图像 T^rgb=Fremove(z,Mcond)\hat{T}_{\text{rgb}} = F_{\text{remove}}(z, M_{\text{cond}})T^rgb=Fremove(z,Mcond)

Second Stage. 在第二阶段,我们训练扩散模型FdiffF_{\text{diff}}Fdiff从含噪输入图像中生成无反射先验z0z_0z0,并微调反射去除主干网络FremoveF_{\text{remove}}Fremove。这里的关键挑战在于扩散模型缺乏直接监督。因此,我们利用第一阶段提取的先验z0z_0z0作为监督信号来引导模型。我们从提取的无反射先验z0z_0z0开始,在多个时间步上添加噪声。这个过程将 “真实” 先验z0z_0z0转换为每个时间步t的含噪版本ztz_tzt,可表示为:

q(zt∣z0)=N(zt;1−βtz0,βtI),(9) q(z_t|z_0) = \mathcal{N}(z_t; \sqrt{1 - \beta_t}z_0, \beta_t\mathbf{I}), \tag{9} q(ztz0)=N(zt;1βtz0,βtI),(9)

其中N\mathcal{N}N表示高斯分布,βt\beta_tβt是控制每个时间步添加噪声水平的噪声调度,I\mathbf{I}I表示单位矩阵。

在反向扩散过程中,模型被训练为逐步去除噪声以恢复干净的先验z0z_0z0,可表示为:

pθ(zt−1∣zt)=N(zt−1;μθ(zt,t,Mcond),σt2I),(10) p_\theta(z_{t-1}|z_t) = \mathcal{N}(z_{t-1}; \mu_\theta(z_t, t, M_{\text{cond}}), \sigma_t^2\mathbf{I}), \tag{10} pθ(zt1zt)=N(zt1;μθ(zt,t,Mcond),σt2I),(10)

其中μθ(zt,t,Mcond)\mu_\theta(z_t, t, M_{\text{cond}})μθ(zt,t,Mcond)是当前状态 ztz_tzt、时间步 ttt 和条件输入McondM_{\text{cond}}Mcond的均值函数。在整个反向过程中,模型以偏振测量McondM_{\text{cond}}Mcond为条件,这些测量提供了场景物理属性的关键信息。这些测量帮助模型在去噪过程中准确生成无反射分量。反向过程完成后,模型输出最终的无反射先验 z^0\hat{z}_0z^0,其中包含干净的透射信息。这个先验被用作反射去除主干网络 FremoveF_{\text{remove}}Fremove 的引导信号。主干网络利用这个无反射先验和偏振数据来预测干净的透射图像T^rgb\hat{T}_{\text{rgb}}T^rgb

Losses

Basic Loss. 为优化 PolarFree,我们遵循 [46] 采用三种基本损失函数:L1 损失、VGG 感知损失 [14] 和总变分(TV)损失 [33]。L1 损失通过公式L1=∥T^rgb−Trgb∥1\mathcal{L}_{1} = \|\hat{T}_{\text{rgb}} - T_{\text{rgb}}\|_1L1=T^rgbTrgb1最小化预测透射图像T^rgb\hat{T}_{\text{rgb}}T^rgb与真实透射图像TrgbT_{\text{rgb}}Trgb之间的逐像素差异。VGG 感知损失则比较预训练 VGG 网络 [14] 的特征激活值,并按λl\lambda_lλl加权:LVGG=∑lλl∥ϕl(T^rgb)−ϕl(Trgb)∥1\mathcal{L}_{\text{VGG}} = \sum_l \lambda_l \|\phi_l(\hat{T}_{\text{rgb}}) - \phi_l(T_{\text{rgb}})\|_1LVGG=lλlϕl(T^rgb)ϕl(Trgb)1,其中ϕl\phi_lϕl表示第l层 VGG 层的激活值。我们还通过梯度算子使用 TV 损失约束一致性,即LTV=∥∇T^rgb−∇Trgb∥1\mathcal{L}_{\text{TV}} = \|\nabla\hat{T}_{\text{rgb}} - \nabla T_{\text{rgb}}\|_1LTV=∥∇T^rgbTrgb1

Phase loss. 尽管基本损失函数帮助网络使颜色和强度值与真实标签匹配,但在数据集采集过程中,它们难以处理半反射表面导致的颜色差异。这些由材料的反射和透射特性引起的变化会影响颜色和强度,导致预测图像与目标图像不匹配,并阻碍模型学习正确的透射图。为解决这一问题,我们引入相位损失(phase loss)以聚焦透射层的结构信息 —— 该信息对颜色变化不敏感。如图 6 所示,相位信息主要捕获图像的几何形状和纹理,与颜色变化无关。相位损失的公式为:

Lphase=∥∠(FFT(T^))−∠(FFT(Trgb))∥1,(11) \mathcal{L}_{\text{phase}} = \left\|\angle\left(\text{FFT}(\hat{T})\right) - \angle\left(\text{FFT}(T_{\text{rgb}})\right)\right\|_1, \tag{11} Lphase=(FFT(T^))(FFT(Trgb))1,(11)

FFT(⋅)\text{FFT}(\cdot)FFT() 表示傅里叶变换操作,将图像从空间域转换至频域;∠(⋅)\angle(\cdot)() 提取傅里叶系数的相位角,该信息主导图像的几何与纹理结构(与颜色、亮度无关);

Diffusion Loss. 扩散损失遵循标准 DDPM 公式 [8],其中模型预测每个时间步 t 的噪声,并将预测噪声与真实噪声之间的差异最小化,公式为:

Ldiff=Eq(zt∣zt−1)∥ϵθ(zt,t)−ϵtrue(zt)∥22,(12) \mathcal{L}_{\text{diff}} = \mathbb{E}_{q(z_t|z_{t-1})} \left\| \epsilon_\theta(z_t, t) - \epsilon_{\text{true}}(z_t) \right\|_2^2, \tag{12} Ldiff=Eq(ztzt1)ϵθ(zt,t)ϵtrue(zt)22,(12)

其中,ϵtrue(zt)\epsilon_{\text{true}}(z_t)ϵtrue(zt) 是通过公式 (9) 获得的添加噪声,ϵθ(zt,t)\epsilon_\theta(z_t, t)ϵθ(zt,t) 是基于偏振测量和 RGB 输入 McondM_{\text{cond}}Mcond 条件下预测的噪声。

Total loss. 上述损失函数通过加权求和作为第一阶段的监督信号:
Lstage1=γ1L1+γ2LVGG+γ3LTV+γ4Lphase,(13) \mathcal{L}_{\text{stage1}} = \gamma_1\mathcal{L}_1 + \gamma_2\mathcal{L}_{\text{VGG}} + \gamma_3\mathcal{L}_{\text{TV}} + \gamma_4\mathcal{L}_{\text{phase}}, \tag{13} Lstage1=γ1L1+γ2LVGG+γ3LTV+γ4Lphase,(13)

在第二阶段,我们使用由扩散损失和重建损失组成的组合损失函数:

Lstage2=γ5Ldiff+γ6Lrecon,(14) \mathcal{L}_{\text{stage2}} = \gamma_5\mathcal{L}_{\text{diff}} + \gamma_6\mathcal{L}_{\text{recon}}, \tag{14} Lstage2=γ5Ldiff+γ6Lrecon,(14)

其中 Lrecon\mathcal{L}_{\text{recon}}LreconLstage1\mathcal{L}_{\text{stage1}}Lstage1 形式相同,γ(⋅)\gamma(\cdot)γ()为权重系数。该组合损失有助于优化无反射图像,同时确保其与真实标签一致。

在这里插入图片描述

  • 图 6 (a) 相位信息保留形状和纹理细节,而颜色主要影响振幅。(b) 我们对图像应用两种随机颜色扰动并计算扰动误差,可以看到基于相位的损失对颜色变化更不敏感。

Experiments

我们在 PolaRGB 数据集上对 PolarFree 进行训练和评估。整个数据集包含 67 个场景,共有 6500 对图像。对于每个场景,我们保持背景(透射层)和相机固定,通过改变玻璃位置来捕捉含反射的图像。这 67 个场景被随机划分为 56 个训练场景和 11 个测试场景,分别包含 6312 对和 188 对图像。这种划分确保了训练集和测试集之间没有数据泄露,且每个集合仅包含所有类别的一个子集。

我们还在博物馆和画廊等无法获取真实标签的真实场景中测试了 PolarFree。我们使用 PyTorch 在单块 NVIDIA RTX 4090 GPU 上实现 PolarFree。训练采用批量大小为 2 的 AdamW 优化器,学习率为 2×10⁻⁴,两个阶段在 PolaRGB 数据集上各进行 30k 次迭代。

我们将我们的方法与最近的先进反射去除方法进行了比较,包括 Lei 等人 [18]、IBCLN [21]、DSRNet [11]、YTMT [10] 和 RDRNet [46]。为了公平比较,我们修改了输入设置以与我们的方法一致,并且仅使用透射层进行监督。我们已在 PolaRGB 数据集上重新训练了基线方法。评估使用客观指标(PSNR、SSIM)、感知指标(LPIPS)和基于语言的无参考指标(Q-Align [40])进行。

在这里插入图片描述

http://www.dtcms.com/a/278158.html

相关文章:

  • IT岗位任职资格体系及发展通道-产品经理岗位任职标准参考
  • 《Python JSON 数据解析全指南:从基础到实战(含 jsonpath 与 Schema 验证)》
  • 九、官方人格提示词汇总(上)
  • 改进广告投入与销售额预测分析
  • CVE-2021-31201
  • 特征选择要解决什么问题
  • 算法题(174):全排列问题
  • 碳水循环(增肌、减脂)
  • AEC原理
  • 白盒测试方法深度解析:从理论到实践
  • Python协程进阶:优雅终止与异常处理详解
  • Mybatis 两级缓存可能导致的问题
  • 「小程序开发」新建页面设置启动页
  • alpinelinux的包管理
  • 力扣刷题记录(c++)09
  • ‘make_unique’ is not a member of ‘std’
  • win10下的wsl2扩充空间
  • 20250713 保存 PBM / PGM / PPM 图片 C++
  • 拼写纠错模型Noisy Channel(上)
  • 中华心法问答系统的解读(1)
  • XCZU2CG-2SFVC784I Xilinx FPGA AMD Zynq UltraScale+ MPSoC
  • if-constexpr,编译报错expected a “(“
  • JavaScript 中一些常见算法的实现及详细解析
  • 问题 E: Connecting Territories(DP)
  • 理解volatile:并发编程的核心机制
  • 能说说MyBatis的工作原理吗?
  • 柯西不等式
  • CATIA许可价格高,设计部门如何精细化分配?
  • 【时时三省】(C语言基础)通过指针引用数组元素2
  • 未来航空电子系统