当前位置：首页 > news >正文

ϵ-prediction和z0-prediction是什么意思

news 2025/7/4 7:48:42

在这篇CVPR 2025论文《Detail-Preserving Latent Diffusion for Stable Shadow Removal》中，ϵ-prediction 和 z₀-prediction 是指扩散模型（具体为 Latent Diffusion Model, LDM）在去噪过程中的两种不同参数化方式，用于预测潜在空间中的样本。这两种方式决定了去噪器（如 U-Net）在训练和推理阶段预测的目标，直接影响模型的性能和推理稳定性。以下是对这两者的详细解释，结合论文上下文和扩散模型的通用背景：

1. 扩散模型的背景

扩散模型（Diffusion Models）通过在数据上逐步添加噪声（前向过程）并学习逆向去噪（反向过程）来生成高质量样本。在潜在扩散模型（LDM，如 Stable Diffusion）中，这些过程发生在低维潜在空间（由 VAE 编码生成）。去噪器的任务是从带噪样本 $\mathbf{z}_t$ 预测无噪声样本或噪声本身，具体取决于参数化方式。

前向加噪过程（公式3.1，Section 3.2）：

$\mathbf{z}_t^{\mathbf{y}} = \sqrt{\alpha_t} \mathbf{z}^{\mathbf{y}} + \sqrt{1 - \alpha_t} \epsilon, \quad \epsilon \sim \mathcal{N}(0, I)$

其中：

$\mathbf{z}^{\mathbf{y}}$ 是无阴影图像的潜在表示（目标无噪声样本）。
$\mathbf{z}_t^{\mathbf{y}}$ 是时间步 $t$ 的带噪样本。
$\alpha_t = \prod_{s=1}^t (1 - \beta_s)$ 是噪声调度参数， $\beta_s$ 控制每步噪声强度。
$\epsilon$ 是高斯噪声。
反向去噪过程：去噪器（如 U-Net $f_\theta$ ）接收带噪样本 $\mathbf{z}_t^{\mathbf{y}}$ 、条件输入（如阴影图像的潜在表示 $\mathbf{z}^{\mathbf{x}}$ ）和时间步 $t$ ，预测目标样本或噪声。

ϵ-prediction 和 z₀-prediction 是去噪器预测目标的两种不同方式。

2. ϵ-prediction（噪声预测）

定义：
- ϵ-prediction 是扩散模型的传统参数化方式，去噪器 $f_\theta$ 被训练来预测前向过程中添加的高斯噪声 $\epsilon$ 。
- 在训练时，模型以带噪样本 $\mathbf{z}_t^{\mathbf{y}}$ 和条件输入 $\mathbf{z}^{\mathbf{x}}$ 为输入，预测噪声 $\epsilon$ ：

$\hat{\epsilon} = f_\theta(\mathbf{z}_t^{\mathbf{y}}, \mathbf{z}^{\mathbf{x}}, t)$

损失函数优化预测噪声与真实噪声的差距：

$\mathcal{L}_t = \|\epsilon - f_\theta(\mathbf{z}_t^{\mathbf{y}}, \mathbf{z}^{\mathbf{x}}, t)\|_2^2$

在推理时，模型通过预测噪声 $\hat{\epsilon}$ 逐步从 $\mathbf{z}_t^{\mathbf{y}}$ 恢复无噪声样本 $\mathbf{z}_0^{\mathbf{y}}$ ，通常结合 DDIM（Denoising Diffusion Implicit Models，参考 [33]）进行快速采样。
特点：
- 优点：ϵ-prediction 是扩散模型的标准方法（如 DDPM [9]），在图像生成任务中广泛使用，具有理论上的稳健性。
- 缺点：由于直接预测噪声，推理过程中的随机性较高，可能导致输出方差较大，尤其在采样步数较少时（Table 1，论文中 ϵ-prediction 的方差为 0.239）。
- 适用场景：适合需要高多样性的生成任务（如文本到图像生成），但在需要稳定输出的任务（如阴影去除）中可能表现欠佳。
论文中的表现：
- 论文在 Table 1 中比较了 ϵ-prediction 和 z₀-prediction 在 ISTD+ 数据集上的性能。
- ϵ-prediction 的 PSNR 为 29.66，方差为 0.239，表明其生成的阴影去除结果质量稍低且稳定性较差（Section 3.4）。

3. z₀-prediction（无噪声样本预测）

定义：
- z₀-prediction 是一种替代参数化方式，去噪器 $f_\theta$ 被训练直接预测无噪声的潜在样本 $\mathbf{z}^{\mathbf{y}}$ （即目标无阴影图像的潜在表示），而非噪声 $\epsilon$ 。
- 在训练时，模型以带噪样本 $\mathbf{z}_t^{\mathbf{y}}$ 和条件输入 $\mathbf{z}^{\mathbf{x}}$ 为输入，预测无噪声样本：

$\hat{\mathbf{z}}^{\mathbf{y}} = f_\theta(\mathbf{z}_t^{\mathbf{y}}, \mathbf{z}^{\mathbf{x}}, t)$

损失函数优化预测样本与真实无噪声样本的差距（论文公式3.1）：

$\mathcal{L}_t = \|\mathbf{z}^{\mathbf{y}} - f_\theta(\mathbf{z}_t^{\mathbf{y}}, \mathbf{z}^{\mathbf{x}}, t)\|_2^2$

在推理时，模型直接输出预测的无噪声样本 $\hat{\mathbf{z}}^{\mathbf{y}}$ ，通过 DDIM 等方法迭代生成最终的无阴影潜在表示 $\mathbf{z}_{0}^{\mathbf{y}}$ （公式3.2）。
特点：
- 优点：
  - 直接预测目标样本减少了推理过程中的随机性，显著降低了输出方差（Table 1，方差为 0.146，低于 ϵ-prediction 的 0.239）。
  - 在条件生成任务（如阴影去除）中，z₀-prediction 更适合需要一致性和高保真度的场景，因为它直接优化目标样本的重建质量。
- 缺点：相比 ϵ-prediction，可能牺牲部分生成多样性，但在阴影去除等确定性任务中，这通常不是主要关注点。
- 适用场景：适合需要稳定输出和高质量结果的任务，如图像修复、超分辨率、阴影去除等。
论文中的表现：
- 论文在第一阶段（latent space shadow removal）采用 z₀-prediction 微调 LDM 的 U-Net（Section 3.4）。
- Table 1 显示，z₀-prediction 的 PSNR 为 29.95，高于 ϵ-prediction 的 29.66，方差降低至 0.146，表明其生成的阴影去除结果更高质量且更稳定。
- 论文引用 Lotus [7] 的建议，指出 z₀-prediction 有助于减少随机 LDM 推理的方差，特别适合阴影去除任务（Section 3.4）。

4. ϵ-prediction 和 z₀-prediction 的对比

特性	ϵ-prediction	z₀-prediction
预测目标	高斯噪声 $\epsilon$	无噪声样本 $\mathbf{z}^{\mathbf{y}}$
损失函数	$\|\|\epsilon - f_\theta(\mathbf{z}_t^{\mathbf{y}}, \mathbf{z}^{\mathbf{x}}, t)\|\|_2^2$	$\|\|\mathbf{z}^{\mathbf{y}} - f_\theta(\mathbf{z}_t^{\mathbf{y}}, \mathbf{z}^{\mathbf{x}}, t)\|\|_2^2$
推理稳定性	方差较高（0.239，Table 1）	方差较低（0.146，Table 1）
生成质量	PSNR 29.66（Table 1）	PSNR 29.95（Table 1）
适用任务	高多样性生成（如图像生成）	高保真度条件生成（如阴影去除）
论文中的选择	对比实验，未采用	主要采用，优化第一阶段 LDM 微调

论文选择 z₀-prediction 的原因：
- 阴影去除任务需要高保真度和一致性，z₀-prediction 直接优化目标样本的重建，减少了推理过程中的随机性。
- 实验验证（Table 1）表明 z₀-prediction 在 PSNR 和方差上优于 ϵ-prediction，适合论文的目标（稳定、高质量的阴影去除）。
- 结合 DDIM 推理（公式3.2），z₀-prediction 进一步减少采样步骤，提高效率，同时保持输出质量。

5. 论文中的实验验证

实验设置（Section 3.4）：
- 在 ISTD+ 数据集上，论文通过五次不同随机种子（1, 2, 3, 4, 5）的推理，计算 PSNR 的平均值和方差，比较 ϵ-prediction 和 z₀-prediction。
- z₀-prediction 的平均 PSNR 为 29.95，方差为 0.146，优于 ϵ-prediction 的 PSNR 29.66 和方差 0.239（Table 1）。
- 第二阶段（细节注入阶段）进一步提升性能（PSNR 35.02，方差 0.160），但 z₀-prediction 在第一阶段奠定了低方差的基础。
与其他方法的对比：
- 相较于 DeS3 [11]（另一基于扩散的无掩码阴影去除方法，PSNR 31.33，方差 1.075），论文的 z₀-prediction 结合两阶段框架显著降低了方差（0.160，Table 1），证明了其稳定性优势。

6. 理论与实践意义

理论意义：
- z₀-prediction 通过直接预测目标样本，简化了去噪过程的优化目标，降低了推理的不确定性，特别适合条件生成任务。
- ϵ-prediction 更适合需要探索数据分布多样性的场景，而 z₀-prediction 更专注于高质量的重建，论文的选择体现了任务需求的匹配。
实践意义：
- 在阴影去除任务中，z₀-prediction 的低方差和高保真度确保了输出的稳定性和视觉质量，适合实际应用（如室内复杂光照场景，Figure 6）。
- 结合 Stable Diffusion 的预训练先验和 DDIM 推理，z₀-prediction 使 LDM 能够高效处理高分辨率图像（如 WSRD+ 的 1920x1440，Section 4.1）。
与奇异值的关系（隐式关联）：
- 虽然论文未提及奇异值分解（SVD），但 z₀-prediction 通过直接优化目标样本的表示，可能隐式降低了潜在空间特征的条件数，提升了去噪过程的数值稳定性。

7. 总结

ϵ-prediction：去噪器预测前向过程中的高斯噪声 $\epsilon$ ，是扩散模型的传统参数化，适合高多样性生成任务，但在阴影去除中因较高方差（0.239）表现稍逊。
z₀-prediction：去噪器直接预测无噪声样本 $\mathbf{z}^{\mathbf{y}}$ ，优化目标的重建质量，降低推理方差（0.146），更适合需要稳定性和高保真度的阴影去除任务。
论文中的选择：论文采用 z₀-prediction 微调 LDM 的 U-Net（Section 3.4），实验证明其在 PSNR（29.95 vs. 29.66）和方差（0.146 vs. 0.239）上优于 ϵ-prediction（Table 1），为第一阶段的高质量阴影去除奠定了基础。