当前位置：首页 > news >正文

【第五章:计算机视觉-项目实战之生成式算法实战：扩散模型】2.CV黑科技：生成式算法理论-(3)经典扩散模型DDPM算法流程讲解

news 2025/10/9 6:53:06

第五章：计算机视觉-项目实战之生成式算法实战：扩散模型

第二部分：CV黑科技——生成式算法理论

第三节：经典扩散模型DDPM算法流程讲解

一、DDPM的诞生背景

在生成式模型的世界里，GAN（生成对抗网络）曾长期统治舞台，但它存在训练不稳定、模式坍塌（mode collapse）等问题。
于是，研究者们开始探索基于概率建模的生成方法——扩散模型（Diffusion Model）。

**DDPM（Denoising Diffusion Probabilistic Model）**由 Ho et al. 在 2020 年提出，是第一个让扩散模型在图像生成上达到甚至超越GAN的算法。
它的核心思想是：

从随机噪声一步步“去噪”，直到恢复出清晰、逼真的图像。

二、DDPM算法总体框架

DDPM 模型包含两个核心过程：

正向扩散过程（Forward Process）
- 将真实图像逐步加入噪声，直至完全变为高斯噪声；
反向生成过程（Reverse Process）
- 训练神经网络学习“如何一步步去噪”，恢复原图。

整个过程可以理解为一个可学习的马尔可夫链（Markov Chain），如下图所示：

x₀ → x₁ → x₂ → … → xₜ → … → x_T   （正向加噪）
x_T → x_{T-1} → … → x₁ → x₀       （反向去噪）

三、正向扩散过程（Forward Diffusion Process）

正向扩散过程是一个固定的、不可学习的过程。
我们从真实图像 ( $x_0$ ) 出发，不断加入少量噪声，生成一系列样本 ( $x_t$ )。

其数学定义为：

$q(x_t | x_{t-1}) = \mathcal{N}(x_t ; \sqrt{1 - \beta_t}x_{t-1}, \beta_t I)$

其中：

( $\beta_t$ )：每一步加入的噪声强度（称为“噪声调度”）；
(I)：单位矩阵；
( $t \in [1, T]$ )：扩散步数。

更方便的闭式表达形式为：

$q(x_t | x_0) = \mathcal{N}(x_t ; \sqrt{\bar{\alpha}_t}x_0, (1 - \bar{\alpha}_t) I)$
其中：
$\bar{\alpha}t = \prod{s=1}^t (1 - \beta_s)$

这意味着我们可以在任意时刻t直接生成带噪的样本，而无需逐步迭代。

四、反向去噪过程（Reverse Denoising Process）

反向过程是可学习的部分，它试图重建 ( $x_0$ )。
模型假设反向分布也服从高斯分布：

$p_\theta(x_{t-1} | x_t) = \mathcal{N}(x_{t-1} ; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t))$

其中，神经网络（通常是UNet结构）负责预测均值 ( $\mu_\theta$ )，有时还预测方差 ( $\Sigma_\theta$ )。

模型学习的核心任务是预测噪声 ( $\epsilon_\theta(x_t, t)$ )，并用它恢复原始信号：
$\mu_\theta(x_t, t) = \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{\beta_t}{\sqrt{1 - \bar{\alpha}t}} \epsilon\theta(x_t, t) \right)$

五、训练目标函数

DDPM训练目标是让模型学会准确预测每一步加入的噪声：

$L_{\text{simple}} = \mathbb{E}{x_0, \epsilon, t} [ | \epsilon - \epsilon\theta(x_t, t) |^2 ]$

这个损失函数看起来像是普通的均方误差（MSE），
但它的意义在于：模型通过学习噪声，间接掌握了如何生成数据分布的逆过程。

换句话说：
模型不直接生成图像，而是一步步“去除噪声”，直到恢复出真实图像。

六、推理阶段：从噪声生成图像

在推理阶段，DDPM从纯高斯噪声 ( $x_T \sim \mathcal{N}(0, I)$ ) 开始，逐步反向采样：

$x_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{\beta_t}{\sqrt{1 - \bar{\alpha}t}} \epsilon\theta(x_t, t) \right) + \sigma_t z$

其中：

( $z \sim \mathcal{N}(0, I)$ ) 是随机噪声；
( $\sigma_t$ ) 控制采样多样性。

经过多步采样（通常为1000步左右），即可生成高质量图像。

七、DDPM算法流程总结

阶段	步骤	数学表达	含义
正向扩散	( $x_0 \to x_t$ )	$(x_t = \sqrt{\bar{\alpha}_t}x_0 + \sqrt{1 - \bar{\alpha}_t}\epsilon)$	添加噪声
反向生成	$(x_t \to x_{t-1})$	$(x_{t-1} = f_\theta(x_t, t, \epsilon_\theta))$	去噪生成
训练目标	——	$(L = \|\epsilon - \epsilon_\theta(x_t, t)\|^2)$	预测噪声
采样输出	$(x_T \to x_0)$	——	生成图像

八、DDPM的关键创新点

概率一致性：
相比GAN依赖对抗博弈，DDPM有明确的概率意义。
稳定训练：
训练过程类似于MSE回归，不易出现模式坍塌。
生成质量高：
图像清晰度与多样性均超过早期GAN模型。
可解释性强：
每个时间步对应不同程度的“去噪”，生成过程可视化清晰。

九、DDPM算法流程图（推荐讲义插图）

建议的教学图像结构如下（我可以帮你绘制成可插图版）：

输入真实图像 x₀↓（添加噪声）
x₁ → x₂ → x₃ → … → x_T（纯噪声）↑（逐步去噪）p_θ(x_{t-1} | x_t)↓
生成清晰图像 x₀'

或以时间轴形式展示「正向加噪 → 反向去噪」的双向过程，并标注每步公式。

十、总结

DDPM（去噪扩散概率模型）是生成式AI的数学基石，
它以稳定的概率建模 + 精确的噪声控制实现了从随机噪声到高保真图像的跨越。

如今，包括 Stable Diffusion、Imagen、DALL·E 3 等主流AI绘画系统，都以DDPM为核心框架演化而来。

一句话总结：
DDPM让AI真正学会了“从噪声中看见世界”。

查看全文

http://www.dtcms.com/a/457294.html

牛客算法_哈希

Product Hunt 每日热榜 | 2025-10-08

重庆建站公司官网国外有名的网站

【论文阅读】Visual Planning: Let’s Think Only with Images

河南教育平台网站建设为中小型企业构建网站

开放指令编辑创新突破！小米开源 Lego-Edit 登顶 SOTA：用强化学习为 MLLM 编辑开辟全新赛道！

Vue 与 React 深度对比：底层原理、开发体验与实际性能

平台网站建设协议电话网站域名到期

Spring Gateway 全面解析：从入门到进阶实践

江西九江网站建设注册登记

建个微网站多少钱tv网站建设

Docker 说明与安装

Docker 镜像结构与相关核心知识总结

容器技术与 Docker 入门部署

linux学习笔记（20）线程

Vue3后台表单快速开发

前端技术栈 —— 创建React项目

推荐一个 GitHub 开源项目信息卡片生成工具，支持Docker快速部署和API调用

元宇宙的工业制造应用：重构生产、研发与供应链

做美足网站违法吗北京网站建设哪家比较好

2025版本的idea解决Git冲突

深入浅出 HarmonyOS ArkTS：现代跨平台应用开发的语法基石

Spring boot 3.0整合RocketMQ不兼容的问题

淮安制作企业网站莱芜金点子最新招聘

AI+机器人浪潮已至：是方舟还是巨浪？

Linux:虚拟世界的大门

市桥网站建设培训数据库与网站建设

LangGraph学习笔记 (二)-10分钟搭建自己第一个Agent

Sutton：LLM 通往 AGI 的隐秘瓶颈

吴恩达机器学习课程（PyTorch 适配）学习笔记大纲