当前位置：首页 > news >正文

DDPM理论基础解析

news 2025/10/28 14:03:40

DDPM

- 加噪过程
- 去噪过程

DDPM模型主要分为两个过程：

1、Forward加噪过程（从右往左），数据集的真实图片中逐步加入高斯噪声，最终变成一个杂乱无章的高斯噪声，这个过程一般发生在训练的时候。加噪过程满足一定的数学规律。
2、Reverse去噪过程（从左往右），指对加了噪声的图片逐步去噪，从而还原出真实图片，这个过程一般发生在预测生成的时候。尽管在这里说的是加了噪声的图片，但实际去预测生成的时候，是随机生成一个高斯噪声来去噪。去噪的时候不断根据 $X_t$ 的图片生成 $X_{t-1}$ 的噪声，从而实现图片的还原。

加噪过程

Forward加噪过程主要符合如下的公式：
$x_t=\sqrt{\alpha_t} x_{t-1}+\sqrt{1-\alpha_t} z_{t} \tag{1}$ 其中 $\sqrt{\alpha_t}$ 是预先设定好的超参数，被称为Noise schedule，通常是小于1的值，在论文中 $\alpha_t$ 的值从0.9999到0.998。 $\epsilon_{t-1} \sim N(0, 1)$ 是高斯噪声。由公式（1）迭代推导。 $x_t=\sqrt{a_t}\left(\sqrt{a_{t-1}} x_{t-2}+\sqrt{1-\alpha_{t-1}} z_2\right)+\sqrt{1-\alpha_t} z_1=\sqrt{a_t a_{t-1}} x_{t-2}+\left(\sqrt{a_t\left(1-\alpha_{t-1}\right)} z_2+\sqrt{1-\alpha_t} z_1\right)$ 其中每次加入的噪声都服从高斯分布 $z_1, z_2, \ldots \sim \mathcal{N}(0, 1)$ ，两个高斯分布的相加高斯分布满足公式： $\mathcal{N}\left(0, \sigma_1^2 \right)+\mathcal{N}\left(0, \sigma_2^2 \right) \sim \mathcal{N}\left(0,\left(\sigma_1^2+\sigma_2^2\right) \right)$ ，因此，得到 $x_t$ 的公式为：
$x_t = \sqrt{a_t a_{t-1}} x_{t-2}+\sqrt{1-\alpha_t \alpha_{t-1}} z_2$ 因此不断往里面套，就可以直接得出 $x_0$ 到 $x_t$ 的公式：
$x_t=\sqrt{\overline{\alpha_t}} x_0+\sqrt{1-\overline{\alpha_t}} z_t$ 其中 $\overline{\alpha_t}=\prod_i^t \alpha_i$ ，这是随Noise schedule设定好的超参数， $z_{t-1} \sim N(0, 1)$ 也是个高斯噪声。通过上述两个公式，我们可以不断的将图片进行破坏加噪。

去噪过程

反向过程就是通过估测噪声，多次迭代逐渐将被破坏的 $x_t$ 恢复成 $x_0$ ，在恢复时刻，我们已经知道的是 $x_t$ ，这是图片在t 时刻的噪声图。一下子从 $x_t$ 恢复成 $x_0$ 是不可能的，我们只能一步一步的往前推，首先从 $x_t$ 恢复成 $x_{t-1}$ 。根据贝叶斯公式，已知 $x_t$ 反推 $x_{t-1}$ ：
$q\left(x_{t-1} \mid x_t, x_0\right)=q\left(x_t \mid x_{t-1}, x_0\right) \frac{q\left(x_{t-1} \mid x_0\right)}{q\left(x_t \mid x_0\right)}$
右边的三个东西都可以从 $x_0$ 开始推得到：
$q\left(x_{t-1} \mid x_0\right)=\sqrt{\bar{a}_{t-1}} x_0+\sqrt{1-\bar{a}_{t-1}} z \sim \mathcal{N}\left(\sqrt{\bar{a}_{t-1}} x_0, 1-\bar{a}_{t-1}\right)\\q\left(x_t \mid x_0\right) = \sqrt{\bar{a}_t} x_0+\sqrt{1-\bar{\alpha}_t} z \sim \mathcal{N}\left(\sqrt{\bar{a}_t} x_0 , 1-\bar{\alpha}_t\right)\\q\left(x_t \mid x_{t-1}, x_0\right)=\sqrt{a_t} x_{t-1}+\sqrt{1-\alpha_t} z \sim \mathcal{N}\left(\sqrt{a_t} x_{t-1}, 1-\alpha_t\right)$ 因此，由于右边三个东西均满足正态分布， $q\left(x_{t-1} \mid x_t, x_0\right)$ 满足分布如下： $\propto \exp \left(-\frac{1}{2}\left(\frac{\left(x_t-\sqrt{\alpha_t} x_{t-1}\right)^2}{\beta_t}+\frac{\left(x_{t-1}-\sqrt{\bar{\alpha}_{t-1}} x_0\right)^2}{1-\bar{\alpha}_{t-1}}-\frac{\left(x_t-\sqrt{\bar{\alpha}_t} x_0\right)^2}{1-\bar{\alpha}_t}\right)\right)$ 把标准正态分布展开后，乘法就相当于加，除法就相当于减，把他们汇总，继续化简，咱们现在要求的是上一时刻的分布 $\begin{aligned} & \propto \exp \left(-\frac{1}{2}\left(\frac{\left(x_t-\sqrt{\alpha_t} x_{t-1}\right)^2}{\beta_t}+\frac{\left(x_{t-1}-\sqrt{\bar{\alpha}_{t-1}} x_0\right)^2}{1-\bar{\alpha}_{t-1}}-\frac{\left(x_t-\sqrt{\bar{\alpha}_t} x_0\right)^2}{1-\bar{\alpha}_t}\right)\right) \\ & =\exp \left(-\frac{1}{2}\left(\frac{x_t^2-2 \sqrt{\alpha_t} x_t x_{t-1}+\alpha_t x_{t-1}^2}{\beta_t}+\frac{x_{t-1}^2-2 \sqrt{\bar{\alpha}_{t-1}} x_0 x_{t-1}+\bar{\alpha}_{t-1} x_0^2}{1-\bar{\alpha}_{t-1}}-\frac{\left(x_t-\sqrt{\bar{\alpha}_t} x_0\right)^2}{1-\bar{\alpha}_t}\right)\right) \\ & =\exp \left(-\frac{1}{2}\left(\left(\frac{\alpha_t}{\beta_t}+\frac{1}{1-\bar{\alpha}_{t-1}}\right) x_{t-1}^2-\left(\frac{2 \sqrt{\alpha_t}}{\beta_t} x_t+\frac{2 \sqrt{\bar{\alpha}_{t-1}}}{1-\bar{\alpha}_{t-1}} x_0\right) x_{t-1}+C\left(x_t, x_0\right)\right)\right) \end{aligned} $ 正态分布满足公式， $\exp \left(-\frac{(x-\mu)^2}{2 \sigma^2}\right)=\exp \left(-\frac{1}{2}\left(\frac{1}{\sigma^2} x^2-\frac{2 \mu}{\sigma^2} x+\frac{\mu^2}{\sigma^2}\right)\right)$ ，其中 $\sigma$ 就是方差， $\mu$ 就是均值，配方后我们就可以获得均值和方差。

此时的均值为： $\tilde{\mu}_t\left(x_t, x_0\right)=\frac{\sqrt{\alpha_t}\left(1-\bar{\alpha}_{t-1}\right)}{1-\bar{\alpha}_t} x_t+\frac{\sqrt{\bar{\alpha}_{t-1}} \beta_t}{1-\bar{\alpha}_t} x_0$ 根据之前的公式， $x_t=\sqrt{\overline{\alpha_t}} x_0+\sqrt{1-\overline{\alpha_t}} z_t$ ，我们可以使用 $x_t$ 反向估计得到 $x_0$ ，其满足分布 $x_0=\frac{1}{\sqrt{\bar{\alpha}_t}}\left(\mathrm{x}_t-\sqrt{1-\bar{\alpha}_t} z_t\right)$ 。

最终得到均值为 $\tilde{\mu}_t=\frac{1}{\sqrt{a_t}}\left(x_t-\frac{\beta_t}{\sqrt{1-\bar{a}_t}} z_t\right)$ ， $z_t$ 代表t时刻的噪音是什么。由 $z_t$ 无法直接获得，网络便通过当前时刻的 $x_t$ 经过神经网络计算 $z_t$ 。 $\epsilon_\theta\left(x_t, t\right)$ 也就是上面提到的 $z_t$ 。 $\epsilon_\theta$ 代表神经网络。
$x_{t-1}=\frac{1}{\sqrt{\alpha_t}}\left(x_t-\frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \epsilon_\theta\left(x_t, t\right)\right)+\sigma_t z$ 由于加噪过程中的真实噪声 $\epsilon$ 在复原过程中是无法获得的，因此DDPM的关键就是训练一个由 $x_t$ 和t估测橾声的模型 $\epsilon_\theta\left(x_t, t\right)$ ，其中 $\theta$ 就是模型的训练参数， $\sigma_t$ 也是一个高斯噪声 $\sigma_t \sim N(0,1)$ ，用于表示估测与实际的差距。在DDPM中，使用U-Net作为估测噪声的模型。