当前位置：首页 > news >正文

【LDM】视觉自回归建模：通过Next-Scale预测生成可扩展图像（NeurIPS2024最佳论文阅读笔记与吃瓜）

news 2025/10/30 3:30:00

《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》
视觉自回归建模：通过Next-Scale预测生成可扩展图像

文章目录

- 1、吃瓜：tky事件，NeurIPS与最佳论文
- 2、论文：摘要，正文，结论
- 3、导读：文章核心内容总结

在这里插入图片描述

1、吃瓜：tky事件，NeurIPS与最佳论文

去年的瓜，当时就关注了下，后来一直没空看，就咕咕咕，最近在看AI相关的内容，突然想起来了，就来填一个远古的坑 1， 2 , tkygithub,

吃瓜时间线

10月，有消息称，字节跳动某实习生破坏了大模型训练代码，造成严重后果。后来，字节内部人士证实，确有此事，实习生已经被辞退，名为田柯宇。
本来，字节只是将田柯宇退回，让学校处理，并没有追究他的经济赔偿。但是，田柯宇后来多次表示，自己发完论文后，就从字节离职了，是另一个人篡改了模型代码，并将过失扣到了自己头上。
11月底，有媒体报道称，字节跳动请求法院判令田某某赔偿公司侵权损失 800 万元及合理支出 2 万元，并公开赔礼道歉。
正当大模型老板们都在感叹，这样的员工技术再好也不能用时，田柯宇又用科研论文在研究领域狠狠扳回了一分，获得NeurIPS2024最佳论文奖。

NeurIPS最佳论文的含金量

神经信息处理系统大会（NIPS， NeurIPS ，Conference and Workshop on Neural Information Processing Systems），是一个关于机器学习和计算神经科学的国际会议。nips官网
该会议位列CCFA。与ICML，ICLR并称为机器学习领域难度最大，水平最高，影响力最强的会议三大会议。1
头部计划seed，PAAI，青云计划，群星未来之夜，豆包火种之夜，线下邀请函，年薪高达165w+
NeurIPS 2024 将于 12 月 10 日星期二至 12 月 15 日星期日在温哥华举办。
NeurIPS 2024 年共接收了 15671 篇论文（比去年又增长了27%），录取率为25.8%（去年为 26.1%），大概 4043 篇左右。1， 2， 3
公开数据显示，中国人民大学、字节跳动、蚂蚁集团、腾讯等中国高校和互联网企业均分别有数十篇论文被NeurIPS 2024收录。蚂蚁集团被 NeurIPS 2024 收录了20篇论文，其中有一篇为Spotlight（特别关注）。按往年数据估算，NeurIPS 的 Spotlight 论文录取率约为 3%。 1
在这4000多篇论文中，一共有两篇论文获得最佳论文奖，其中一篇就是tky的《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》（视觉自回归建模：通过Next-Scale预测生成可扩展图像），1

2、论文：摘要，正文，结论

项目模型和代码，论文正式版 , 预印本

参考资料：1, 2，

背景介绍

在自然语言处理中，以 GPT、LLaMa 系列等大语言模型为例的 Autoregressive 自回归模型已经取得了较大的成功，尤其 Scaling Law 缩放定律和 Zero-shot Task Generalizability 零样本任务泛化能力十分亮眼，初步展示出通往「通用人工智能 AGI」的潜力。
然而在图像生成领域中，自回归模型却广泛落后于扩散（Diffusion）模型：近期持续刷屏的 DALL-E3、Stable Diffusion3、SORA 等模型均属于 Diffusion 家族。此外，对于视觉生成领域是否存在「Scaling Law 缩放定律」仍未知，即测试集损失是否随模型或训练开销增长而呈现出可预测的幂律 (Power-law) 下降趋势仍待探索。GPT 形式自回归模型的强大能力与 Scaling Law，在图像生成领域，似乎被「锁」住了。
剑指「解锁」自回归模型的能力和 Scaling Laws，研究团队从图像模态内在本质出发，模仿人类处理图像的逻辑顺序，提出一套全新的「视觉自回归」生成范式：VAR, Visual AutoRegressive Modeling，首次使得 GPT 风格的自回归视觉生成，在效果、速度、Scaling 能力多方面超越 Diffusion，并迎来了视觉生成领域的 Scaling Laws。

在这里插入图片描述

实现方案

VAR 方法核心：模仿人类视觉，重新定义图像自回归顺序
人类在感知图像或进行绘画时，往往先概览全局、再深入细节。这种由粗到细、从把握整体到精调局部的思想非常自然。然而，传统的图像自回归（AR）却使用一种不符合人类直觉（但适合计算机处理）的顺序，即自上而下、逐行扫描的光栅顺序（或称 raster-scan 顺序），来逐个预测图像。
VAR 则「以人为本」，模仿人感知或人创造图像的逻辑顺序。
使用从整体到细节的多尺度顺序逐渐生成 token map。一个显著优势是大幅提高了生成速度：在自回归的每一步（每一个尺度内部），所有图像 token 是一次性并行生成的；跨尺度则是自回归的。这使得在模型参数和图片尺寸相当的情况下，VAR 能比传统 AR 快数十倍。
VAR 方法细节：两阶段训练
VAR 在第一阶段训练一个多尺度量化自动编码器（Multi-scale VQVAE），在第二阶段训练一个与 GPT-2 结构一致（结合使用 AdaLN）的自回归 Transformer。
作者表示，VAR 的自回归框架是全新的
而具体技术方面则吸收了 RQ-VAE 的残差 VAE、StyleGAN 与 DiT 的 AdaLN、PGGAN 的 progressive training 等一系列经典技术的长处。VAR 实际是站在巨人的肩膀上，聚焦于自回归算法本身的创新。

实验效果对比

VAR 在 Conditional ImageNet 256x256 和 512x512 上进行实验：
VAR 大幅提升了 AR 的效果，一转 AR 落后于 Diffusion 的局面
VAR 仅需 10 步自回归步骤，生成速度大幅超过 AR、Diffusion，甚至逼近 GAN 的高效率
通过 Scale up VAR 直至 2B/3B，VAR 达到了 SOTA 水平，展现出一个全新的、有潜力的生成模型家族。
通过与 SORA、Stable Diffusion 3 的基石模型 Diffusion Transformer（DiT）对比：
更好效果：经过 scale up，VAR 最终达到 FID=1.80，逼近理论上的 FID 下限 1.78（ImageNet validation set），显著优于 DiT 最优的 2.10
更快速度：VAR 只需不到 0.3 秒即可生成一张 256 图像，速度是 DiT 的 45 倍；在 512 上更是 DiT 的 81 倍
更好 Scaling 能力：如左图所示，DiT 大模型在增长至 3B、7B 后体现出饱和现象，无法靠近 FID 下限；而 VAR 经过缩放到 20 亿参数，性能不断提升，最终触及 FID 下限
更高效的数据利用：VAR 仅需 350 epoch 训练即超过 DiT 1400 epoch 训练
Scaling Law 实验
Scaling law 可谓是大语言模型的「皇冠明珠」。相关研究已经确定，在 Scale up 自回归大型语言模型过程中，测试集上的交叉熵损失 L，会随着模型参数量 N、训练 token 个数 T，以及计算开销 Cmin 进行可预测的降低，呈现出幂律（Power-law）关系。
通过实验，研究者观察到了 VAR 展现出与 LLM 几乎完全一致的幂律 Scaling Law：研究者训练了 12 种大小的模型，缩放模型参数量从 1800 万到 20 亿，总计算量横跨 6 个数量级，最大总 token 数达到 3050 亿，并观察到测试集损失 L 或测试集错误率与 N 之间、L 与 Cmin 之间展现出平滑的的幂律关系，并拟合良好
Zero-shot 实验
得益于自回归模型能够使用 Teacher-forcing 机制强行指定部分 token 不变的这一优良性质，VAR 也展现出一定的零样本任务泛化能力。在条件生成任务上训练好的 VAR Transformer，不通过任何微调即可零样本泛化到一些生成式任务中，例如图像补全（inpainting）、图像外插（outpainting）、图像编辑（class-condition editing），并取得一定效果

结论

VAR 为如何定义图像的自回归顺序提供了一个全新的视角，即由粗到细、由全局轮廓到局部精调的顺序。在符合直觉的同时，这样的自回归算法带来了很好的效果：VAR 显著提升自回归模型的速度和生成质量，在多方面使得自回归模型首次超越扩散模型。

3、导读：文章核心内容总结

本节来源，AI总结

1. 核心思想

Next-Scale Prediction（下一尺度预测）：
传统自回归模型（如PixelRNN）逐像素生成图像，计算效率低且难以捕获长程依赖。本文提出按尺度渐进生成：先生成低分辨率图像，再逐步预测更高分辨率的细节，形成层级生成过程。
自回归的跨尺度扩展：
将自回归建模从像素空间转移到尺度空间，每个步骤基于当前尺度的图像预测下一尺度的残差细节，而非直接生成完整图像。

2. 关键技术

多尺度图像分解：
将图像分解为不同尺度的金字塔表示（如从64×64→128×128→256×256…），每个尺度对应一组残差特征。
条件自回归建模：
使用Transformer或CNN模型，以当前尺度图像为条件，预测下一尺度的残差（即Δ = Next_Scale − Current_Scale）。
渐进训练策略：
分阶段训练模型，先训练低尺度生成，再逐步扩展到高尺度，避免直接处理高分辨率数据的复杂性。

3. 优势与创新