当前位置：首页 > news >正文

扩散模型揭秘：生成式AI的核心与应用

news 2025/9/9 21:46:27

在近年来的人工智能浪潮中，生成式AI模型成为冉冉升起的新星，特别是随着大型语言模型（LLM）产品如 ChatGPT 的推出。这些模型能够通过人类可以理解的自然语言，处理输入并给出合适的输出。随着 ChatGPT 的问世，其他形式的生成式AI也逐渐走向大众，成为主流。

像 DALL-E 和 Midjourney 等产品之所以走红，是因为它们能够通过自然语言输入生成图像。这些热门产品并非“凭空造图”，而是依赖一种被称为**扩散模型（Diffusion Model）**的技术。

在本文中，我们将揭开扩散模型的神秘面纱，更深入地理解其背后的技术原理。我们将讨论扩散模型的基本概念、工作机制以及训练方式。

感兴趣吗？那就开始吧。

扩散模型基础

扩散模型是一类生成式AI算法，能够基于训练数据生成新的数据。具体到图像而言，它可以根据输入生成新的图像。

与传统方式不同，扩散模型的工作原理是在数据中逐步加入噪声，再通过训练模型逐步去除噪声，直到生成目标结果。换句话说，它可以看作是一个“去噪模型”（denoising model）。

扩散模型最早出现在 **Sohl-Dickstein 等人在 2015 年发表的论文《Deep Unsupervised Learning using Nonequilibrium Thermodynamics》**中。论文提出通过一个称为“可控正向扩散过程”的机制把数据逐渐转化为噪声，再训练模型学习逆向过程，也就是“去噪过程”。

在这一基础上， Ho 等人于 2020 年发表《Denoising Diffusion Probabilistic Models》，提出了现代扩散框架，能够生成高质量图像，并超越当时流行的生成对抗网络（GANs）。
扩散模型一般包含两个关键阶段：

正向（扩散）过程：逐步向数据中添加噪声，直到完全成为随机静态画面
反向（去噪）过程：训练神经网络逐步去除噪声，从纯噪声中一步步重建图像

// 正向过程（Forward Process）

正向过程是扩散模型的第一阶段：

从训练数据集中取一张图像
加入少量噪声
多次重复该操作（成百上千次），逐渐腐蚀图像
最终，原图被转化为纯噪声

这一过程常被建模为 马尔可夫链（Markov Chain），因为每一步的噪声图像只依赖于前一步，而非整个序列。

之所以要逐步加噪而不是一次性变为噪声，原因在于这样能让模型逐步学习如何逆转这种破坏过程。

噪声注入方式由“噪声调度（Noise Schedule）”控制，例如：

线性调度：噪声随时间均匀增加
余弦调度：噪声增长较缓，有助于保留更多图像特征

// 反向过程（Reverse Process）

反向过程的核心是让模型具备“生成能力”，即从纯噪声开始，逐步生成图像数据。步骤如下：

从纯噪声出发
通过训练好的模型迭代去噪，每次利用当前噪声图像及时间步长作为输入，预测如何减少噪声
逐步迭代，最终得到清晰图像

常见的网络结构是 U-Net，它是一种编码器-解码器式卷积神经网络。在训练中，模型学习预测每一步添加的噪声，并根据时间步长调整推断。

模型常用的损失函数是 均方误差（MSE），用来衡量预测噪声与实际噪声之间的差距。通过最小化损失，模型逐步学会去噪。

与GAN相比，扩散模型具有更强的稳定性和训练可解释性。

// 文本条件控制（Text Conditioning）

在 DALL-E 和 Midjourney 等文本生成图像的系统中，模型通过文本提示（prompt）来引导图像生成过程，这称为 文本条件控制。

具体做法是：

使用预训练的文本编码器（如 CLIP）把文本提示转换为向量嵌入
将该嵌入输入扩散模型，通过 **交叉注意力机制（Cross-Attention）**使模型专注于提示中的关键信息
在每一步去噪过程中，模型使用提示信息来引导生成图像，使其语义与文本对齐

DALL-E 与 Midjourney 的差异

虽然两者都基于扩散模型，但在技术细节上有差别：

DALL-E：采用基于 CLIP 的嵌入进行文本条件控制，强调严格遵循提示信息，使用**无分类器引导（Classifier-Free Guidance）**平衡文本约束和自由生成
Midjourney：架构更为专有，包含专门优化的图像解码器，更注重风格化和高写实感，默认的引导强度通常更高
提示处理能力：DALL-E 善于处理较长的提示语句，而 Midjourney 对简短提示更有表现力