多模态生成 DALL-E
DALL-E系列(DALL-E、DALL-E 2、DALL-E 3)是文本到图像生成领域的里程碑式模型,
一、DALL-E(2021)
核心创新点
- 离散VAE与Token化图像
通过离散变分自编码器(dVAE)将256×256的图像压缩为32×32的离散Token,每个Token对应8192个视觉概念,大幅降低计算复杂度。 - 自回归Transformer建模联合分布
将文本和图像Token拼接为1280长度的序列,用GPT-3的120亿参数版本建模联合分布,实现零样本生成。 - Gumbel-Softmax松弛与Log-Laplace分布
解决离散Token的不可导问题,并通过Log-Laplace分布优化图像重建质量,避免模糊。
模型架构与模块
- Stage 1:离散VAE训练
- 编码器:残差网络(7×7卷积核,最大池化降采样)将图像编码为32×32×8192的特征图。
- 解码器:最近邻上采样和1×1卷积重构图像,使用Log-Laplace分布建模像素值。
- Stage 2:Transformer联合建模
- 文本编码:BPE将文本编码为256个Token。
- 联合建模:稀疏Transformer对文本和图像Token的联合分布建模,交叉熵损失中图像部分权重为7/8,文本为1/8。
公式及解释
- 证据下界(ELBO)
[
\ln p_{\theta,\psi}(x,y) \geq \mathbb{E}{z \sim q\phi(z|x)} \left[ \ln p_\theta(x|y,z) - \beta D_{KL}(q_\phi(z|x), p_\psi(z|y)) \right]
]- ( q_\phi(z|x) ):dVAE编码器生成的Token分布。
- ( p_\theta(x|y,z) ):dVAE解码器重构图像的概率。
- ( p_\psi(z|y) ):Transformer建模的文本条件Token分布。
- ( \beta=6.6 )平衡KL散度与重构损失。
- Gumbel-Softmax松弛
通过引入温度参数( \tau ),将离散采样转化为可导操作:
[
\text{Gumbel-Softmax}(z_i) = \frac{\exp\left( (\logits_i + \text{Gumbel}(0,1)) / \tau \right)}{\sum_j \exp\left( (\logits_j + \text{Gumbel}(0,1)) / \tau \right)}
]
当( \tau \to 0 )时逼近硬采样。
数据处理
- 数据集:2.5亿互联网图像-文本对,包含Conceptual Captions和YFCC100M子集。
- 归一化:图像像素映射到( (\epsilon, 1-\epsilon) ),避免极端值影响。
- 混合精度训练:使用FP16存储参数和激活值,结合Checkpointing节省内存。
二、DALL-E 2(2022)
核心创新点
- CLIP引导的潜空间扩散
在CLIP的图像-文本对齐空间中训练扩散模型,显著提升生成质量和语义一致性。 - 分层先验(Prior)与解码器
- Prior:扩散模型生成CLIP图像特征。
- 解码器:改进的GLIDE模型从特征重构图像,支持高分辨率(1024×1024)。
- 零样本编辑与插值
通过CLIP特征的语义插值实现图像风格迁移和局部编辑。
模型架构与模块
- CLIP基础模型
- 图像编码器:ViT或ResNet提取图像特征。
- 文本编码器:Transformer生成文本嵌入,用于对比学习。
- 扩散模型训练
- Prior:输入文本嵌入,生成CLIP图像特征( z_i )。
- 解码器:输入( z_i ),通过去噪过程生成图像。
公式及解释
- 扩散模型前向过程
逐步向图像添加高斯噪声:
[
q(z_t | z_{t-1}) = \mathcal{N}(z_t; \sqrt{1-\beta_t} z_{t-1}, \beta_t \mathbf{I})
]- ( \beta_t )为噪声调度参数。
- 逆向去噪过程
预测噪声( \epsilon_\theta )并更新隐变量:
[
z_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( z_t - \frac{\beta_t}{\sqrt{1-\alpha_t}} \epsilon_\theta(z_t, t) \right) + \sigma_t \mathcal{N}(0, \mathbf{I})
]- ( \alpha_t = 1 - \beta_t ),( \sigma_t = \sqrt{\beta_t} )。
数据处理
- 数据集:未公开,但规模与DALL-E 1相当,覆盖更多领域。
- CLIP过滤:使用CLIP筛选高对齐度的图像-文本对,提升数据质量。
三、DALL-E 3(2023)
核心创新点
- 数据集重描述(Recaptioning)
训练CoCa模型为每张图像生成95%详细描述(DSC)和5%原始描述,显著提升Prompt Following能力。 - 多模态协作与提示工程
- GPT-4扩写提示:将用户输入转化为结构化描述。
- 分层Decoder:额外训练Latent Decoder优化文字和人脸细节。
- 多尺度训练与高分辨率生成
支持256×256→512×512→1024×1024的递进式训练,生成4K级图像。
模型架构与模块
- 图像描述生成模块
- CoCa模型:微调谷歌CoCa,生成DSC和SSC两种描述。
- CLIP对比学习:确保生成描述与图像语义对齐。
- 文本到图像生成模块
- T5-XXL文本编码器:处理长文本输入,生成语义嵌入。
- 扩散模型:在潜空间中结合文本嵌入生成图像特征。
- Latent Decoder:优化局部细节,如文字和人脸。
公式及解释
- CoCa目标函数
联合优化对比损失和生成损失:
[
\mathcal{L} = \mathcal{L}{\text{contrastive}} + \lambda \mathcal{L}{\text{captioning}}
]- ( \mathcal{L}_{\text{contrastive}} ):CLIP图像-文本特征对比损失。
- ( \mathcal{L}_{\text{captioning}} ):多模态解码器的交叉熵损失。
数据处理
- 数据集增强:95% DSC(详细描述)+5%原始描述,避免过拟合。
- 用户提示优化:GPT-4将短提示扩展为结构化描述,如“添加夕阳下的山脉”。
- 过滤与安全机制:使用GPT-4V审核生成内容,降低偏见和有害输出。
四、系列演进总结
| 维度 | DALL-E | DALL-E 2 | DALL-E 3 |
|---|---|---|---|
| 核心创新 | 离散VAE+自回归Transformer | CLIP引导扩散模型 | 数据集重描述+多模态协作 |
| 模型架构 | 稀疏Transformer+离散VAE | CLIP+扩散Prior+GLIDE解码器 | CoCa+T5-XXL+分层扩散模型 |
| 生成质量 | 低分辨率(256×256),模糊 | 高分辨率(1024×1024),细节丰富 | 4K级,极端细节(如文字、人脸) |
| 数据处理 | 2.5亿图文对,BPE编码 | CLIP筛选高质量数据 | CoCa生成DSC,GPT-4扩写提示 |
五、应用与影响
DALL-E系列推动了AI生成图像技术的商业化落地,广泛应用于广告设计、教育、医疗等领域。其核心贡献在于:
- 多模态对齐:通过CLIP和扩散模型实现文本与图像的语义统一。
- 数据增强范式:数据集重描述为提升模型理解能力提供了新路径。
- 工程优化:混合精度训练、多尺度生成等技术降低了计算成本。
