当前位置: 首页 > news >正文

【第五章:计算机视觉-项目实战之生成式算法实战:扩散模型】2.CV黑科技:生成式算法理论-(3)经典扩散模型DDPM算法流程讲解

第五章:计算机视觉-项目实战之生成式算法实战:扩散模型

第二部分:CV黑科技——生成式算法理论
第三节:经典扩散模型DDPM算法流程讲解

一、DDPM的诞生背景

在生成式模型的世界里,GAN(生成对抗网络)曾长期统治舞台,但它存在训练不稳定、模式坍塌(mode collapse)等问题。
于是,研究者们开始探索
基于概率建模的生成方法
——扩散模型(Diffusion Model)。

**DDPM(Denoising Diffusion Probabilistic Model)**由 Ho et al. 在 2020 年提出,是第一个让扩散模型在图像生成上达到甚至超越GAN的算法。
它的核心思想是:

从随机噪声一步步“去噪”,直到恢复出清晰、逼真的图像。


二、DDPM算法总体框架

DDPM 模型包含两个核心过程:

  1. 正向扩散过程(Forward Process)

    • 将真实图像逐步加入噪声,直至完全变为高斯噪声;

  2. 反向生成过程(Reverse Process)

    • 训练神经网络学习“如何一步步去噪”,恢复原图。

整个过程可以理解为一个可学习的马尔可夫链(Markov Chain),如下图所示:

x₀ → x₁ → x₂ → … → xₜ → … → x_T   (正向加噪)
x_T → x_{T-1} → … → x₁ → x₀       (反向去噪)

三、正向扩散过程(Forward Diffusion Process)

正向扩散过程是一个固定的、不可学习的过程。
我们从真实图像 (x_0) 出发,不断加入少量噪声,生成一系列样本 (x_t)。

其数学定义为:

q(x_t | x_{t-1}) = \mathcal{N}(x_t ; \sqrt{1 - \beta_t}x_{t-1}, \beta_t I)

其中:

  • (\beta_t):每一步加入的噪声强度(称为“噪声调度”);

  • (I):单位矩阵;

  • (t \in [1, T]):扩散步数。

更方便的闭式表达形式为:

q(x_t | x_0) = \mathcal{N}(x_t ; \sqrt{\bar{\alpha}_t}x_0, (1 - \bar{\alpha}_t) I)
其中:
\bar{\alpha}t = \prod{s=1}^t (1 - \beta_s)

这意味着我们可以在任意时刻t直接生成带噪的样本,而无需逐步迭代。


四、反向去噪过程(Reverse Denoising Process)

反向过程是可学习的部分,它试图重建 (x_0)。
模型假设反向分布也服从高斯分布:

p_\theta(x_{t-1} | x_t) = \mathcal{N}(x_{t-1} ; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t))

其中,神经网络(通常是UNet结构)负责预测均值 (\mu_\theta),有时还预测方差 (\Sigma_\theta)。

模型学习的核心任务是预测噪声 (\epsilon_\theta(x_t, t)),并用它恢复原始信号:
\mu_\theta(x_t, t) = \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{\beta_t}{\sqrt{1 - \bar{\alpha}t}} \epsilon\theta(x_t, t) \right)


五、训练目标函数

DDPM训练目标是让模型学会准确预测每一步加入的噪声:

L_{\text{simple}} = \mathbb{E}{x_0, \epsilon, t} [ | \epsilon - \epsilon\theta(x_t, t) |^2 ]

这个损失函数看起来像是普通的均方误差(MSE),
但它的意义在于:模型通过学习噪声,间接掌握了如何生成数据分布的逆过程。

换句话说:
模型不直接生成图像,而是一步步“去除噪声”,直到恢复出真实图像。


六、推理阶段:从噪声生成图像

在推理阶段,DDPM从纯高斯噪声 (x_T \sim \mathcal{N}(0, I)) 开始,逐步反向采样:

x_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{\beta_t}{\sqrt{1 - \bar{\alpha}t}} \epsilon\theta(x_t, t) \right) + \sigma_t z

其中:

  • (z \sim \mathcal{N}(0, I)) 是随机噪声;

  • (\sigma_t) 控制采样多样性。

经过多步采样(通常为1000步左右),即可生成高质量图像。


七、DDPM算法流程总结

阶段步骤数学表达含义
正向扩散(x_0 \to x_t)(x_t = \sqrt{\bar{\alpha}_t}x_0 + \sqrt{1 - \bar{\alpha}_t}\epsilon)添加噪声
反向生成(x_t \to x_{t-1})(x_{t-1} = f_\theta(x_t, t, \epsilon_\theta))去噪生成
训练目标——(L = |\epsilon - \epsilon_\theta(x_t, t)|^2)预测噪声
采样输出(x_T \to x_0)——生成图像

八、DDPM的关键创新点

  1. 概率一致性
    相比GAN依赖对抗博弈,DDPM有明确的概率意义。

  2. 稳定训练
    训练过程类似于MSE回归,不易出现模式坍塌。

  3. 生成质量高
    图像清晰度与多样性均超过早期GAN模型。

  4. 可解释性强
    每个时间步对应不同程度的“去噪”,生成过程可视化清晰。


九、DDPM算法流程图(推荐讲义插图)

建议的教学图像结构如下(我可以帮你绘制成可插图版):

输入真实图像 x₀↓(添加噪声)
x₁ → x₂ → x₃ → … → x_T(纯噪声)↑(逐步去噪)p_θ(x_{t-1} | x_t)↓
生成清晰图像 x₀'

或以时间轴形式展示「正向加噪 → 反向去噪」的双向过程,并标注每步公式。


十、总结

DDPM(去噪扩散概率模型)是生成式AI的数学基石,
它以稳定的概率建模 + 精确的噪声控制实现了从随机噪声到高保真图像的跨越。

如今,包括 Stable DiffusionImagenDALL·E 3 等主流AI绘画系统,都以DDPM为核心框架演化而来。

一句话总结:
DDPM让AI真正学会了“从噪声中看见世界”。

http://www.dtcms.com/a/457294.html

相关文章:

  • 牛客算法_哈希
  • Product Hunt 每日热榜 | 2025-10-08
  • 重庆建站公司官网国外有名的网站
  • 【论文阅读】Visual Planning: Let’s Think Only with Images
  • 河南教育平台网站建设为中小型企业构建网站
  • 开放指令编辑创新突破!小米开源 Lego-Edit 登顶 SOTA:用强化学习为 MLLM 编辑开辟全新赛道!
  • Vue 与 React 深度对比:底层原理、开发体验与实际性能
  • 平台网站建设协议电话网站域名到期
  • Spring Gateway 全面解析:从入门到进阶实践​
  • 江西九江网站建设注册登记
  • 建个微网站多少钱tv网站建设
  • Docker 说明与安装
  • Docker 镜像结构与相关核心知识总结
  • 容器技术与 Docker 入门部署
  • linux学习笔记(20)线程
  • Vue3后台表单快速开发
  • 前端技术栈 —— 创建React项目
  • 推荐一个 GitHub 开源项目信息卡片生成工具,支持Docker快速部署和API调用
  • 元宇宙的工业制造应用:重构生产、研发与供应链
  • 做美足网站违法吗北京网站建设哪家比较好
  • 2025版本的idea解决Git冲突
  • 深入浅出 HarmonyOS ArkTS:现代跨平台应用开发的语法基石
  • Spring boot 3.0整合RocketMQ不兼容的问题
  • 淮安制作企业网站莱芜金点子最新招聘
  • AI+机器人浪潮已至:是方舟还是巨浪?
  • Linux:虚拟世界的大门
  • 市桥网站建设培训数据库与网站建设
  • LangGraph学习笔记 (二)-10分钟搭建自己第一个Agent
  • Sutton:LLM 通往 AGI 的隐秘瓶颈
  • 吴恩达机器学习课程(PyTorch 适配)学习笔记大纲