当前位置：首页 > news >正文

GAN生成对抗网络小记

news 2025/8/16 14:54:16

生成对抗网络（GAN）深入解析：数学原理与优化

生成对抗网络（Generative Adversarial Network, GAN）是一个基于博弈论的深度学习框架，通过生成器（G）和判别器（D）之间的对抗训练，生成高度逼真的数据。其核心思想是让 $G$ 生成伪造数据以欺骗 $D$ ，而 $D$ 则努力分辨真实数据与伪造数据。GAN 在理论上可以看作一个极小极大（Minimax）优化问题。

1. GAN 的数学公式

1.1 生成器与判别器的定义

生成器 $G (z)$ ： 输入一个随机噪声 $\sim p_z(z)$ （通常为高斯分布或均匀分布），输出一个生成样本 $G (z)$ ，试图让这个样本与真实样本相似。
判别器 $D (x)$ ： 输入一个样本 $x$ ，输出一个介于 0 和 1 之间的概率 $D (x)$ ，表示样本是真实数据的概率。

1.2 GAN 的目标函数

GAN 采用极小极大（Minimax）损失函数，其目标是让生成器尽可能生成真实数据，而判别器尽可能区分真实数据和伪造数据：

$\min_G \max_D V(D, G) = \mathbb{E}_{x \sim p_{\text{data}}(x)}[\log D(x)] + \mathbb{E}_{z \sim p_z(z)}[\log (1 - D(G(z)))]$

其中：

$p_{\text{data}}(x)$ 是真实数据的分布，
$p_z(z)$ 是输入噪声的分布，
$D (x)$ 试图最大化分类准确率，
$G (z)$ 试图最小化判别器的分类能力。

1.3 最优判别器

如果固定生成器 $G$ ，则判别器 $D$ 需要最大化目标函数：

$\mathbb{E}_{x \sim p_{\text{data}}(x)}[\log D(x)] + \mathbb{E}_{z \sim p_z(z)}[\log (1 - D(G(z)))]$

可以证明，最优判别器 $D^*(x)$ 的形式是：

$D^*(x) = \frac{p_{\text{data}}(x)}{p_{\text{data}}(x) + p_g(x)}$

其中， $p_g(x)$ 是由生成器 $G (z)$ 生成的数据的分布。

2. 训练过程

GAN 训练是一个交替优化的过程，通常采用**梯度下降（SGD, Adam）**来更新 $G$ 和 $D$ ：

训练判别器 $D$ ：
- 取真实数据 $\sim p_{\text{data}}(x)$ ，计算 $D (x)$ 并最大化 $\log D(x)$ 。
- 取生成数据 $G (z)$ 使 $D (G (z))$ 尽可能小，即最小化 $\log(1 - D(G(z)))$ 。
- 更新判别器参数 $\theta_D$ 以提高区分能力。
训练生成器 $G$ ：
- 生成数据 $G (z)$ ，然后让判别器对其分类。
- 生成器希望让 $D (G (z))$ 输出接近 1（让判别器误判）。
- 生成器的优化目标是最小化 $\log(1 - D(G(z)))$ ，或者直接最大化 $\log D(G(z))$ （这被称为改进版 GAN 损失）。
循环迭代，直到 $G$ 生成的数据与真实数据无法区分。

3. 训练挑战

3.1 模式崩溃（Mode Collapse）

生成器可能学会只生成一小部分数据，而非整个数据分布。
例如， $G$ 只生成某一类图像，导致 $D$ 很容易识别 $G$ 的模式。

解决方案：

Minibatch Discrimination：让 $D$ 学习样本之间的多样性，防止 $G$ 只生成少量模式。
Unrolled GAN：考虑 $D$ 在未来几步更新中的影响，使 $G$ 不会局部最优。

3.2 训练不稳定

GAN 训练是非凸优化问题，可能导致梯度消失或振荡。
训练过程中， $G$ 和 $D$ 的能力必须匹配，否则其中一方会迅速胜出，导致训练失败。

解决方案：

使用 WGAN（Wasserstein GAN）：WGAN 使用 Wasserstein 距离替代 KL 散度，使训练更加稳定。
调整判别器与生成器的更新频率：例如，训练判别器多步，再训练一次生成器。

3.3 梯度消失

当 $D$ 过强时， $G$ 可能学不到有意义的梯度。
由于 $\log(1 - D(G(z)))$ 在 $D (G (z))$ 远离 1 时梯度趋于 0， $G$ 可能难以更新。

解决方案：

使用改进损失 $max_G \log D(G(z))$ 以提供更好的梯度信号。
使用 Batch Normalization 或 调整学习率。

4. GAN 的变种

DCGAN（深度卷积 GAN）：使用卷积神经网络（CNN），提升图像质量。
CGAN（条件 GAN）：在 $G$ 和 $D$ 额外输入条件信息（如类别标签）。
WGAN（Wasserstein GAN）：使用 Wasserstein 距离替代交叉熵，提高训练稳定性。
StyleGAN：用于高分辨率人脸生成，生成风格可控。
CycleGAN：用于图像到图像的转换（如将马变成斑马）。

5. 总结

GAN 通过博弈思想训练生成模型，使得生成数据逐步逼近真实数据分布。
核心数学公式：GAN 是一个极小极大优化问题，目标是让 $G$ 生成的分布 $p_g(x)$ 逼近真实分布 $p_{\text{data}}(x)$ 。
训练时， $G$ 和 $D$ 交替优化，使得 $G$ 学会欺骗 $D$ ，最终生成高质量数据。
存在模式崩溃、梯度消失等问题，改进版本如 WGAN 和 StyleGAN 解决了一些问题。