当前位置：首页 > news >正文

自回归（Auto-Regressive, AR），自回归图像生成过程

news 2025/8/25 14:29:52

根据论文中“**T2I Generation via Next-Token Prediction**”一节，自回归（Auto-Regressive, AR）文本到图像（T2I）模型的图像生成过程可分为三个主要步骤，其原理和损失函数如下：

---

### 🔹 自回归图像生成过程原理：

1. **文本编码（Text Tokenization）**：
- 输入文本被分词器（tokenizer）转换为一系列离散的文本 token。
- 这些 token 被映射为词嵌入向量（embeddings），表示为 \( c \)。

2. **自回归图像 token 预测**：
- 使用一个自回归 Transformer 模型，根据文本嵌入 \( c \) 和已生成的前缀图像 token 序列 \( x_{1 \sim t-1} \)，预测下一个图像 token \( x_t \)。
- 模型输出的是每个可能 token 的 logits \( l_t \)，通过 softmax 转换为概率分布：
\[
p_\theta(x_t \mid x_{1 \sim t-1}, c) = \text{Softmax}(l_t)
\]
- 从这个分布中采样得到下一个 token \( x_t \)，并将其拼接到序列中，继续预测下一个 token。

3. **图像解码（Image Decoding）**：
- 当完整的图像 token 序列 \( x = (x_1, x_2, \ldots, x_T) \) 生成完成后，使用图像解码器（如 VQGAN 或 VAE 解码器）将这些 token 转换回图像像素。

---

### 🔹 损失函数（Loss Function）：

自回归模型的训练目标是**最大化图像 token 序列的条件似然**，即最小化**交叉熵损失（Cross-Entropy Loss）**。

- 对于每个时间步 \( t \），模型预测下一个 token \( x_t \) 的概率分布。
- 真实的下一个 token 是来自真实图像的 token 序列中的对应 token \( y_t \)。
- 损失函数定义为：
\[
L(\theta) = f\left( y_t,\ p_\theta(x_t \mid x_{1 \sim t-1}, c) \right)
\]
其中 \( f \) 是交叉熵损失函数，\( \theta \) 是模型参数。

---

### 🔹 补充说明：

- **Classifier-Free Guidance (CFG)**：
- 在推理时，为了提高图像质量，通常会使用 CFG 技术。CFG 通过以下方式调整 logits：
\[
l_{t\_cfg} = s(l_t - l_t') + l_t'
\]
其中 \( l_t \) 是基于完整文本的 logits，\( l_t' \) 是无条件（或无文本）的 logits，\( s \) 是引导强度。

---

### ✅ 总结：

- **生成过程**：文本 → token → 嵌入 → 自回归预测图像 token → 解码为图像。
- **损失函数**：交叉熵损失，用于训练模型正确预测下一个图像 token。
- **特点**：自回归模型通过逐步预测 token 序列生成图像，具有统一的多模态建模能力，适合文本到图像生成任务。

如果需要我进一步解释或可视化这个过程，请随时告诉我。

查看全文

http://www.dtcms.com/a/349191.html