当前位置：首页 > news >正文

LLM 笔记 —— 04 为什么语言模型用文字接龙，图片模型不用像素接龙呢？

news 2025/10/12 6:16:59

01 引子

生成式人工智能（Generative AI）包含文字，影像，声音三个方面，其中，文字由 Token 组成、影像由 Pixel（像素）组成，声音由 Sample（取样点）组成。因此，生成式人工智能的核心问题是，如何给一段输出，让其利用基本单位组合成一段输出。

在这里插入图片描述

02 Autoregressive Generation (AR)

① 文字接龙

在这里插入图片描述

② 图像“接龙”

在这里插入图片描述

③ 声音“接龙”

在这里插入图片描述

接龙有一个本质的陷阱，即我们需要按部就班的，按照某种特定的顺序，生成越来越长的输出。假设我们要生成一张 1024 * 1024 解析度的图片，需要大约 100 万次接龙！

那么，如何解决这一问题呢，我们可以让模型一次性输出多个位置的答案！

03 Non-autoregressive Generation (NAR)

Autoregressive Generation (AR) VS Non-autoregressive Generation (NAR)

在这里插入图片描述

其实，文字也可以用 Non-autoregressive Generation (NAR) 生成。

在这里插入图片描述

有一个问题是，生成往往需要 AI 字形脑补，给定条件下，仍有很多不同可能的输出，这个问题，被称为 multi-modality problem。

在这里插入图片描述

这个问题，在 Autoregressive Generation (AR) 情况下往往不会出现。

在这里插入图片描述

如何解决影像生成领域中的 multi-modality problem 呢？

让所有位置都脑补一样的内容。

在这里插入图片描述

影像常用生成模型 VAE、GAN、FIow-based Model、Diffusion Model都有这样的设计。

Autoregressive Generation (AR) + Non-autoregressive Generation (NAR)

先用 Autoregressive Generation 产生精简版本，让 Non-autoregressive Generation 根据精简版本产生详细版本。
在这里插入图片描述

如何产生精简版本呢？

可以将像素矩阵利用 Encoder 压缩成数字矩阵，再利用 Decoder 解压缩还原成图片，Encoder 和 Decoder 都可以是类神经网络通过学习得到，这种方法叫做 Auto-Encoder。

在这里插入图片描述

如此，Autoregressive Generation 只需要研究这个被压缩的数字矩阵就可以了，不需要人类能够看得懂。

在这里插入图片描述

在语音生成上，也可以采用类似的策略。
在这里插入图片描述

在这里插入图片描述

04 多次 Non-autoregressive Generation (NAR)

在这里插入图片描述

① 从小图到大图

在这里插入图片描述

② 从有杂讯到没有杂讯

在这里插入图片描述

③ 每次把不好的地方涂掉

在这里插入图片描述

可能的难点是，如何决定什么地方被涂掉，什么地方不被涂掉。

前文提到，我们可以将 Autoregressive Generation (AR) 和 Non-autoregressive Generation (NAR) 结合起来，如果我们仍然觉得第一段采用 Autoregressive 太耗费了呢，我们可以将这一段生成式 AI 替换为多次 Non-autoregressive Generation (NAR)。

在这里插入图片描述