当前位置: 首页 > news >正文

自回归(Auto-Regressive, AR),自回归图像生成过程

根据论文中“**T2I Generation via Next-Token Prediction**”一节,自回归(Auto-Regressive, AR)文本到图像(T2I)模型的图像生成过程可分为三个主要步骤,其原理和损失函数如下:

---

### 🔹 自回归图像生成过程原理:

1. **文本编码(Text Tokenization)**:
- 输入文本被分词器(tokenizer)转换为一系列离散的文本 token。
- 这些 token 被映射为词嵌入向量(embeddings),表示为 \( c \)。

2. **自回归图像 token 预测**:
- 使用一个自回归 Transformer 模型,根据文本嵌入 \( c \) 和已生成的前缀图像 token 序列 \( x_{1 \sim t-1} \),预测下一个图像 token \( x_t \)。
- 模型输出的是每个可能 token 的 logits \( l_t \),通过 softmax 转换为概率分布:
\[
p_\theta(x_t \mid x_{1 \sim t-1}, c) = \text{Softmax}(l_t)
\]
- 从这个分布中采样得到下一个 token \( x_t \),并将其拼接到序列中,继续预测下一个 token。

3. **图像解码(Image Decoding)**:
- 当完整的图像 token 序列 \( x = (x_1, x_2, \ldots, x_T) \) 生成完成后,使用图像解码器(如 VQGAN 或 VAE 解码器)将这些 token 转换回图像像素。

---

### 🔹 损失函数(Loss Function):

自回归模型的训练目标是**最大化图像 token 序列的条件似然**,即最小化**交叉熵损失(Cross-Entropy Loss)**。

- 对于每个时间步 \( t \),模型预测下一个 token \( x_t \) 的概率分布。
- 真实的下一个 token 是来自真实图像的 token 序列中的对应 token \( y_t \)。
- 损失函数定义为:
\[
L(\theta) = f\left( y_t,\ p_\theta(x_t \mid x_{1 \sim t-1}, c) \right)
\]
其中 \( f \) 是交叉熵损失函数,\( \theta \) 是模型参数。

---

### 🔹 补充说明:

- **Classifier-Free Guidance (CFG)**:
- 在推理时,为了提高图像质量,通常会使用 CFG 技术。CFG 通过以下方式调整 logits:
\[
l_{t\_cfg} = s(l_t - l_t') + l_t'
\]
其中 \( l_t \) 是基于完整文本的 logits,\( l_t' \) 是无条件(或无文本)的 logits,\( s \) 是引导强度。

---

### ✅ 总结:

- **生成过程**:文本 → token → 嵌入 → 自回归预测图像 token → 解码为图像。
- **损失函数**:交叉熵损失,用于训练模型正确预测下一个图像 token。
- **特点**:自回归模型通过逐步预测 token 序列生成图像,具有统一的多模态建模能力,适合文本到图像生成任务。

如果需要我进一步解释或可视化这个过程,请随时告诉我。

http://www.dtcms.com/a/349191.html

相关文章:

  • 【Canvas与旗帜】蓝圈汤加旗
  • 基于蓝牙的stm32智能火灾烟雾报警系统设计
  • 一个高度精简但结构完整的微服务示例
  • 敏感电阻简单介绍
  • Java 创建线程的几种方式
  • Python复数运算完全指南:从基础到工程级应用实践
  • Hyperledger Fabric官方中文教程-改进笔记(十六)-策略(policy)
  • 【Luogu】P4127 [AHOI2009] 同类分布 (数位DP)
  • 【知识杂记】卡尔曼滤波相关知识高频问答
  • Java 中 Set 接口(更新版)
  • 深度学习中的“集体智慧”:Dropout技术详解——不仅是防止过拟合,更是模型集成的革命
  • Java静态代理与动态代理实战解析
  • redis集群模式 -批量操作
  • 智慧工业设备巡检误报率↓81%!陌讯多模态融合算法实战优化与边缘部署
  • 【机器学习】6 Frequentist statistics
  • (计算机网络)JWT三部分及 Signature 作用
  • 车企数据资产管理——解读46页大型车企数据资产数据治理体系解决方案【附全文阅读】
  • 计算机系统 C语言运行时对应内存映射 以及 各个段的数据访问下标越界产生的后果
  • Delphi 12 基于 Indy 的 WebServer 的 https 实现的问题
  • HiRAG:用分层知识图解决复杂推理问题
  • ruoyi框架角色分配用户
  • imx6ull-驱动开发篇38——Linux INPUT 子系统
  • leetcode_189 轮转数组
  • 什么嵌入式接入大模型:第二篇基于 STM32 ESP32 的社会服务助手
  • AI重塑跨境电商:选品成功率提升53%+物流效率加快34%,多语种运营成破局关键
  • String的intern方法
  • 数据库服务优化设置
  • nano命令使用方法
  • 备考NCRE三级信息安全技术 --- L1 信息安全保障概述
  • 自编 C# 颜色命名和色彩显示,使用 DataGridView 展示颜色命名、RGB值