当前位置：首页 > news >正文

【论文阅读】MaskGIT: Masked Generative Image Transformer

news 2025/9/19 14:51:20

CVPR 2022，一个用于高质量图像生成和编辑的Transformer架构。

现有方法的局限

GANs虽然能生成高质量图像，但训练不稳定（比如模式崩溃问题，导致样本多样性不够）。
生成式Transformer受到NLP成功启发，将图像当作一维序列处理（如VQGAN），但实际上：
- 图像不是天然的序列结构，“一维展平+顺序生成”不能充分利用图像的空间结构和上下文。
- 序列长度长（如一个512x512图像可能需要几千个token），导致建模和生成效率低下。
- Autoregressive解码（逐步生成）速度慢且不易并行（比如生成一张图要花30秒）。

2. MaskGIT的核心创新

MaskGIT提出了一套与BERT类似的 “掩码学习”（masked token prediction）思路用于图像生成：

a. 训练阶段

b. 推理/生成阶段

区别传统方法（逐步生成），MaskGIT采用并行多步生成：

解码速度优化：MaskGIT的解码是并行的，并且只用很少的迭代步，对于512x512图像，生成效率是autoregressive方法的64倍！

c. Bidirectional vs. Unidirectional

d. 掩码调度（Mask Scheduling）

总结：

两阶段设计（跟 VQGAN、VQVAE 类似）：

Tokenizer（第一阶段）
输入图像 → VQGAN/VQ-VAE 编码器 → 离散化成“视觉 token”（即 codebook 索引）。
- 图像大小 H×W 压缩成 h×w（h=H/16, w=W/16）token grid。
- 每个 token 是一个 codebook id（共有 1024 个 token，可视作“视觉单词”）。
Bidirectional Transformer（第二阶段）
- 训练目标是 MVTM（Masked Visual Token Modeling），即随机mask部分视觉token，让模型根据未masked token预测被mask掉的内容（类似BERT的MLM）。
- 跟之前自回归序列生成不同，Transformer是双向注意力，可以同时看到左、右、上、下的内容来猜mask位置。

这是MaskGIT能快64倍的关键。

传统AR解码：

MaskGIT解码（并行 & 多次迭代）：

mask调度函数 γ(r) 定义每个迭代的mask比例（r在0~1表示进度）。
必须满足：
1. 0 ≤ γ(r) ≤ 1；
2. 随着 r（进度）增加，γ递减：γ(0)≈1（初始全mask），γ(1)≈0（最后无mask）。
三类函数：
1. Linear：每次减少相同数量token；
2. Concave（凹型）：先少填，后期快速增加 → 类似人类画画流程（先大概，再密集细化）。包括cosine、平方、立方、指数等；
3. Convex（凸型）：反过来，先大量确定token，后期少改动（逻辑不太符合图像细化规律）。
结论（实验4.4）：
- Cosine最好（略胜平方），性能稳定、FID最低（质量最高）；
- 凹型函数普遍优于线性，线性优于凸型。

（ImageNet 256×256, 512×512）

（无需改architecture）

类条件编辑（Class-conditional editing）：某个bounding box内换成另一类，外部背景保持。AR方法几乎做不到，MaskGIT天然支持。
Inpainting（补洞）：Places2数据集下超过DeepFillv2、HiFill，接近CoModGAN。
Outpainting（外延）: 超越Boundless、InfinityGAN等GAN方法，FID&IS更优，还能采多种seed生成多样扩展。