当前位置：首页 > news >正文

DDPM 做了什么

news 2025/7/3 15:03:41

本博客主要侧重点在于HOW也就是DDPM怎么做的而不是WHY为什么要这样做
DDPM过程

那么第一个问题DDPM做了一件什么事：这个算法通过逐渐向原图像添加噪声来破坏图像，然后再学习如何从噪声成恢复图像。
第二件事如何做到的：通过训练一个网络，这个网络输入为加噪声图片和添加噪声的次数，输出为网络预测施加在图像上的噪声
添加噪声的过程也就是前向扩散过程满足这个式子：

逐步添加高斯噪声到数据 $x_0$
$q(x_t | x_{t-1}) = \mathcal{N}\left(x_t; \sqrt{1-\beta_t} x_{t-1}, \beta_t I\right)$
最终隐式表达：
$q(x_t | x_0) = \mathcal{N}\left(x_t; \sqrt{\bar{\alpha}_t} x_0, (1-\bar{\alpha}_t)I\right)$
其中：

$\alpha_t = 1 - \beta_t$
$\bar{\alpha}_t = \prod_{i=1}^t \alpha_i$
这边的 $\beta_t$ 是自己设的

这个式子用人话来说就是由原图像加噪t次后产生的图像（就命名为 $I_t$ 吧）要满足偏差为 $\sqrt{\bar{\alpha}_t} x_0$ 方差为 $(1-\bar{\alpha}_t)I$ 的正态分布。
听起来是不是还是不像人话，没事代码一看便懂

def q_xt_x0(self, x0: torch.Tensor, t: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
    mean = gather(self.alpha_bar, t) ** 0.5 * x0
    var = 1 - gather(self.alpha_bar, t)
    return mean, var

def q_sample(self, x0: torch.Tensor, t: torch.Tensor, eps: Optional[torch.Tensor] = None):
    if eps is None:
           eps = torch.randn_like(x0)
    mean, var = self.q_xt_x0(x0, t)
    return mean + (var ** 0.5) * eps

也就是 $I_t$ 是由 $I_0$ 乘上一个系数然后加上由标准正态分布采样得到的和原图像大小一致的随机噪声乘上系数得到的。
那么为什么mean + (var ** 0.5) * eps = $\mathcal{N}\left(x_t; \sqrt{\bar{\alpha}_t} x_0, (1-\bar{\alpha}_t)I\right)$ 呢？
因为这边的 $eps\sim \mathcal{N}(0, I)$ 所以 $\sim \mathcal{N}(0,(1-\bar{\alpha}_t)I)$ (这块看不懂去看看概率论吧) 那么 $\sim N(\sqrt{\bar{\alpha}_t} x_0, (1-\bar{\alpha}_t)I)$ 满足了隐式表达的式子。

说完了添加噪声，那么自然来到了如何去除噪声，前面也说过，我们训练一个网络网络输入为 $I_t$ 和t，输出为网络预测的第t次施加在图像上的噪声。我们把这个网络就记作 $\epsilon_\theta(I_t, t)$ ，我们的目标是使得网络预测的噪声和添加在图像上的噪声越相似越好，就得到了网络的损失函数
$\mathcal{L}(\theta) = \mathbb{E}_{t, x_0, \epsilon} \left[ \| \epsilon - \epsilon_\theta(I_t, t) \|^2 \right]$
训练过程就是采样，计算损失函数，反向传播更新参数。具体就不多说了