当前位置：首页 > news >正文

DDPM(Diffusion）个人总结

news 2025/10/23 11:03:38

注：这是笔者自己的笔记，主要供复习使用，因此比较粗糙，详细过程请移步其余优秀博客

最终目的：得到 $p(x_0|x_T)$ 。其中 $T$ 是加噪的步数，是预先定义的；注意，这里学习的是 $x_0$ 的分布，而不是 $x_0$ ！

为了实现这个目的，我们的模型真正学习的是： $p(x_{t-1}|x_t)$ ，有了这样的模型，我们就可以一步步，由 $x_T$ 一直推理到 $x_0$ 了。

而前向（加噪）过程是已经被定下来的： $xt=αtxt−1+βtεtx_t=\sqrt{α_t}x_{t-1}+\sqrt{β_t}ε_t$ ，其中 $εt∼N(0,I)ε_t\sim N(0,I)$ ，于是 $xt∼N(αtxt−1,βt)x_t\sim N(\sqrt{α_t}x_{t-1},β_t)$ ，于是 $xt=α˜tx0+β˜tεx_t=\sqrt{\~α_t}x_{0}+\sqrt{\~β_t}ε$ ，其中 $ε∼N(0,I)ε\sim N(0,I)$ 。

现在，求 $p(x_{t-1}|x_t)$ 。根据贝叶斯公式，推导出 $xt−1=μˉ(x0,xt)+β˜tεx_{t-1}=\bar{μ}(x_0,x_t)+\sqrt{\~β_t}ε$ ，其中 $ε∼N(0,I)ε\sim N(0,I)$ ， $μˉ(x0,xt)=αˉt−1βt1−αˉtx0+αt(1−αˉt−1)1−αˉtxt\bar{\mu}(x_0, x_t) = \frac{\sqrt{\bar{\alpha}_{t-1}} \, \beta_t}{1 - \bar{\alpha}_t} x_0 + \frac{\sqrt{\alpha_t} (1 - \bar{\alpha}_{t-1})}{1 - \bar{\alpha}_t} x_t$ 。注意，在训练时， $x_0$ 是已知的原图，可以直接使用。但推理时， $x_0$ 是未知的，就需要进行预测。（以下为推理时的公式）

如何预测呢？由于 $xt=α˜tx0+β˜tεx_t=\sqrt{\~α_t}x_{0}+\sqrt{\~β_t}ε$ ，可以得到 $x0=xt−1−αˉtϵαˉtx_0 = \frac{x_t - \sqrt{1 - \bar{\alpha}_t}\, \epsilon}{\sqrt{\bar{\alpha}_t}}$ 。注意，这里可不是直接可以推理得到最终生成图片 $x_0$ 了。公式上当然是的，但效果会很差。这里的 $x_0$ 只是用来推理 $x_{t-1}$ 的一个小零件。我们的U-net输出的噪声就是此处公式中的噪声 $ε$ ，即当初生成 $x_t$ 时的噪声。

将 $x_0$ 带入 $μˉ(x0,xt)\bar{\mu}(x_0, x_t)$ ，有 $μˉ(x0,xt)=1αt(xt−βt1−αˉt)\bar{\mu}(x_0, x_t)=\frac{1}{\sqrt{α_t}}(x_t-\frac{β_t}{\sqrt{1-\bar{α}_t}})$ 。