【第五章:计算机视觉-项目实战之生成式算法实战:扩散模型】2.CV黑科技:生成式算法理论-(3)经典扩散模型DDPM算法流程讲解
第五章:计算机视觉-项目实战之生成式算法实战:扩散模型
第二部分:CV黑科技——生成式算法理论
第三节:经典扩散模型DDPM算法流程讲解
一、DDPM的诞生背景
在生成式模型的世界里,GAN(生成对抗网络)曾长期统治舞台,但它存在训练不稳定、模式坍塌(mode collapse)等问题。
于是,研究者们开始探索基于概率建模的生成方法——扩散模型(Diffusion Model)。
**DDPM(Denoising Diffusion Probabilistic Model)**由 Ho et al. 在 2020 年提出,是第一个让扩散模型在图像生成上达到甚至超越GAN的算法。
它的核心思想是:
从随机噪声一步步“去噪”,直到恢复出清晰、逼真的图像。
二、DDPM算法总体框架
DDPM 模型包含两个核心过程:
正向扩散过程(Forward Process)
将真实图像逐步加入噪声,直至完全变为高斯噪声;
反向生成过程(Reverse Process)
训练神经网络学习“如何一步步去噪”,恢复原图。
整个过程可以理解为一个可学习的马尔可夫链(Markov Chain),如下图所示:
x₀ → x₁ → x₂ → … → xₜ → … → x_T (正向加噪)
x_T → x_{T-1} → … → x₁ → x₀ (反向去噪)
三、正向扩散过程(Forward Diffusion Process)
正向扩散过程是一个固定的、不可学习的过程。
我们从真实图像 () 出发,不断加入少量噪声,生成一系列样本 (
)。
其数学定义为:
其中:
(
):每一步加入的噪声强度(称为“噪声调度”);
(I):单位矩阵;
(
):扩散步数。
更方便的闭式表达形式为:
其中:
这意味着我们可以在任意时刻t直接生成带噪的样本,而无需逐步迭代。
四、反向去噪过程(Reverse Denoising Process)
反向过程是可学习的部分,它试图重建 ()。
模型假设反向分布也服从高斯分布:
其中,神经网络(通常是UNet结构)负责预测均值 (),有时还预测方差 (
)。
模型学习的核心任务是预测噪声 (),并用它恢复原始信号:
五、训练目标函数
DDPM训练目标是让模型学会准确预测每一步加入的噪声:
这个损失函数看起来像是普通的均方误差(MSE),
但它的意义在于:模型通过学习噪声,间接掌握了如何生成数据分布的逆过程。
换句话说:
模型不直接生成图像,而是一步步“去除噪声”,直到恢复出真实图像。
六、推理阶段:从噪声生成图像
在推理阶段,DDPM从纯高斯噪声 () 开始,逐步反向采样:
其中:
(
) 是随机噪声;
(
) 控制采样多样性。
经过多步采样(通常为1000步左右),即可生成高质量图像。
七、DDPM算法流程总结
阶段 | 步骤 | 数学表达 | 含义 |
---|---|---|---|
正向扩散 | ( | 添加噪声 | |
反向生成 | 去噪生成 | ||
训练目标 | —— | 预测噪声 | |
采样输出 | —— | 生成图像 |
八、DDPM的关键创新点
概率一致性:
相比GAN依赖对抗博弈,DDPM有明确的概率意义。稳定训练:
训练过程类似于MSE回归,不易出现模式坍塌。生成质量高:
图像清晰度与多样性均超过早期GAN模型。可解释性强:
每个时间步对应不同程度的“去噪”,生成过程可视化清晰。
九、DDPM算法流程图(推荐讲义插图)
建议的教学图像结构如下(我可以帮你绘制成可插图版):
输入真实图像 x₀↓(添加噪声)
x₁ → x₂ → x₃ → … → x_T(纯噪声)↑(逐步去噪)p_θ(x_{t-1} | x_t)↓
生成清晰图像 x₀'
或以时间轴形式展示「正向加噪 → 反向去噪」的双向过程,并标注每步公式。
十、总结
DDPM(去噪扩散概率模型)是生成式AI的数学基石,
它以稳定的概率建模 + 精确的噪声控制实现了从随机噪声到高保真图像的跨越。
如今,包括 Stable Diffusion、Imagen、DALL·E 3 等主流AI绘画系统,都以DDPM为核心框架演化而来。
一句话总结:
DDPM让AI真正学会了“从噪声中看见世界”。