当前位置：首页 > news >正文

PixelCNN介绍：VQ-VAE的前一步探索

news 2025/8/2 6:03:58

一、自回归图像建模：PixelCNN 的基本思想

图像本质上是一个高维数据，比如一张 $32 \times 32$ 的彩色图像有 $32 \times 32 \times 3 = 3072$ 个像素值。直接对这么高维的空间建模非常困难。PixelCNN 采用 自回归（autoregressive）建模 的方式，将联合概率分解为一系列条件概率的乘积：

$p(\mathbf{x}) = \prod_{i=1}^{H \times W} p(x_i \mid x_1, x_2, \dots, x_{i-1})$

其中：

$x\mathbf{x}$ 是整张图像展平后的像素向量
$x_i$ 是第 $i$ 个像素（按从左到右、从上到下的顺序）
每个像素的出现概率依赖于它之前的所有像素

这个分解方式类似于语言模型中预测下一个词，只不过这里是预测下一个像素。

例如，在生成第 $ i $ 个像素时，模型只能看到它的“左上区域”——也就是所有已经生成的像素（上方所有行 + 当前行左侧像素），不能看到右边或下边的“未来像素”。

二、掩码卷积（Masked Convolution）：防止信息泄露

为了实现上述约束，PixelCNN 使用了 掩码卷积（masked convolution）。普通的卷积操作是中心对称的，会同时看到周围所有方向的信息，这在自回归生成中是不允许的。

1. 掩码设计

假设使用 $3 \times3 $ 的卷积核，我们定义一个二值掩码矩阵 $M$ ，使得卷积核只能“看到”当前位置之前的像素：

$\begin{bmatrix} 1 & 1 & 1 \\ 1 & 1 & 0 \\ 0 & 0 & 0 \\ \end{bmatrix}$

这个掩码表示：

第一行全部可见（上方像素）
第二行只有左边和中间可见（当前行左侧像素）
第三行全不可见（下方像素，属于未来）

然后，在卷积层初始化时，将卷积核权重与这个掩码相乘：

$W_{\text{masked}} = W \odot M$

这样，卷积操作就天然屏蔽了未来的像素信息。

2. 多层堆叠与感受野扩展

单层掩码卷积的感受野有限（如 $\times 3$ ），但通过多层堆叠，后续层可以逐步扩大感受野。经过 $L$ 层后，最终层可以覆盖整个左上区域，实现全局依赖建模。

三、像素级概率建模：输出分布而非具体值

PixelCNN 不直接输出像素值，而是为每个像素输出一个离散的概率分布。以灰度图为例，每个像素取值范围是 ${0,1,…,255}\{0, 1, \dots, 255\}$ ，模型输出一个 256 维的 softmax 分布：

$p(x_i = k \mid \mathbf{x}_{<i}) = \frac{\exp(f_k(\mathbf{x}_{<i}))}{\sum_{j=0}^{255} \exp(f_j(\mathbf{x}_{<i}))}$

其中 $fk(⋅)f_k(\cdot)$ 是神经网络（PixelCNN）的第 $k$ 个输出通道，表示第 $i$ 个像素取值为 $k$ 的未归一化得分（logit）。

对于彩色图像（RGB），通常采用 逻辑混合分布（Mixture of Logistic Distributions） 或逐通道建模。一种常见做法是将三个通道分开预测：

$p(\mathbf{x}) = \prod_{i} p(r_i, g_i, b_i \mid \mathbf{x}_{<i}) = \prod_{i} p(r_i \mid \mathbf{x}_{<i}) \cdot p(g_i \mid r_i, \mathbf{x}_{<i}) \cdot p(b_i \mid r_i, g_i, \mathbf{x}_{<i})$

即先预测红色通道，再基于红色预测绿色，再基于前两者预测蓝色，进一步增强依赖性。

四、训练目标：最大化对数似然

PixelCNN 的训练目标是最小化负对数似然（Negative Log-Likelihood），等价于最大化数据出现的概率：

$\mathcal{L} = -\mathbb{E}_{\mathbf{x} \sim \text{data}} \left[ \log p(\mathbf{x}) \right] = -\mathbb{E} \left[ \sum_{i=1}^{N} \log p(x_i \mid \mathbf{x}_{<i}) \right]$

在训练时，输入整张图像，网络对每个位置输出一个概率分布，然后计算交叉熵损失。由于所有操作都是可导的（除了最后的采样），可以通过反向传播优化模型参数。

五、生成过程：逐像素采样

训练完成后，就可以进行图像生成。过程如下：

初始化一张全空图像（例如全零）
从左上角开始，逐个位置进行预测：
- 将已生成的部分输入 PixelCNN
- 得到当前位置的像素分布 $p(xi∣x<i)p(x_i \mid \mathbf{x}_{<i})$
- 从中采样一个像素值（例如按概率随机抽取，或取最可能的值）
- 填入图像
重复直到所有像素生成完毕