自回归(Auto-Regressive, AR),自回归图像生成过程
根据论文中“**T2I Generation via Next-Token Prediction**”一节,自回归(Auto-Regressive, AR)文本到图像(T2I)模型的图像生成过程可分为三个主要步骤,其原理和损失函数如下:
---
### 🔹 自回归图像生成过程原理:
1. **文本编码(Text Tokenization)**:
- 输入文本被分词器(tokenizer)转换为一系列离散的文本 token。
- 这些 token 被映射为词嵌入向量(embeddings),表示为 \( c \)。
2. **自回归图像 token 预测**:
- 使用一个自回归 Transformer 模型,根据文本嵌入 \( c \) 和已生成的前缀图像 token 序列 \( x_{1 \sim t-1} \),预测下一个图像 token \( x_t \)。
- 模型输出的是每个可能 token 的 logits \( l_t \),通过 softmax 转换为概率分布:
\[
p_\theta(x_t \mid x_{1 \sim t-1}, c) = \text{Softmax}(l_t)
\]
- 从这个分布中采样得到下一个 token \( x_t \),并将其拼接到序列中,继续预测下一个 token。
3. **图像解码(Image Decoding)**:
- 当完整的图像 token 序列 \( x = (x_1, x_2, \ldots, x_T) \) 生成完成后,使用图像解码器(如 VQGAN 或 VAE 解码器)将这些 token 转换回图像像素。
---
### 🔹 损失函数(Loss Function):
自回归模型的训练目标是**最大化图像 token 序列的条件似然**,即最小化**交叉熵损失(Cross-Entropy Loss)**。
- 对于每个时间步 \( t \),模型预测下一个 token \( x_t \) 的概率分布。
- 真实的下一个 token 是来自真实图像的 token 序列中的对应 token \( y_t \)。
- 损失函数定义为:
\[
L(\theta) = f\left( y_t,\ p_\theta(x_t \mid x_{1 \sim t-1}, c) \right)
\]
其中 \( f \) 是交叉熵损失函数,\( \theta \) 是模型参数。
---
### 🔹 补充说明:
- **Classifier-Free Guidance (CFG)**:
- 在推理时,为了提高图像质量,通常会使用 CFG 技术。CFG 通过以下方式调整 logits:
\[
l_{t\_cfg} = s(l_t - l_t') + l_t'
\]
其中 \( l_t \) 是基于完整文本的 logits,\( l_t' \) 是无条件(或无文本)的 logits,\( s \) 是引导强度。
---
### ✅ 总结:
- **生成过程**:文本 → token → 嵌入 → 自回归预测图像 token → 解码为图像。
- **损失函数**:交叉熵损失,用于训练模型正确预测下一个图像 token。
- **特点**:自回归模型通过逐步预测 token 序列生成图像,具有统一的多模态建模能力,适合文本到图像生成任务。
如果需要我进一步解释或可视化这个过程,请随时告诉我。