当前位置: 首页 > news >正文

【LDM】视觉自回归建模:通过Next-Scale预测生成可扩展图像(NeurIPS2024最佳论文阅读笔记与吃瓜)

【LDM】视觉自回归建模:通过Next-Scale预测生成可扩展图像(NeurIPS2024最佳论文阅读笔记与吃瓜)

《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》
视觉自回归建模:通过Next-Scale预测生成可扩展图像

文章目录

    • 1、吃瓜:tky事件,NeurIPS与最佳论文
    • 2、论文:摘要,正文,结论
    • 3、导读:文章核心内容总结

在这里插入图片描述

1、吃瓜:tky事件,NeurIPS与最佳论文

去年的瓜,当时就关注了下,后来一直没空看,就咕咕咕,最近在看AI相关的内容,突然想起来了,就来填一个远古的坑 1, 2 , tkygithub,

吃瓜时间线

  • 10月,有消息称,字节跳动某实习生破坏了大模型训练代码,造成严重后果。后来,字节内部人士证实,确有此事,实习生已经被辞退,名为田柯宇。
  • 本来,字节只是将田柯宇退回,让学校处理,并没有追究他的经济赔偿。但是,田柯宇后来多次表示,自己发完论文后,就从字节离职了,是另一个人篡改了模型代码,并将过失扣到了自己头上。
  • 11月底,有媒体报道称,字节跳动请求法院判令田某某赔偿公司侵权损失 800 万元及合理支出 2 万元,并公开赔礼道歉。
  • 正当大模型老板们都在感叹,这样的员工技术再好也不能用时,田柯宇又用科研论文在研究领域狠狠扳回了一分,获得NeurIPS2024最佳论文奖。
    在这里插入图片描述

NeurIPS最佳论文的含金量

  • 神经信息处理系统大会(NIPS, NeurIPS ,Conference and Workshop on Neural Information Processing Systems),是一个关于机器学习和计算神经科学的国际会议。nips官网
  • 该会议位列CCFA。与ICML,ICLR并称为机器学习领域难度最大,水平最高,影响力最强的会议三大会议。1
  • 头部计划seed,PAAI,青云计划,群星未来之夜,豆包火种之夜,线下邀请函,年薪高达165w+
  • NeurIPS 2024 将于 12 月 10 日星期二至 12 月 15 日星期日在温哥华举办。
  • NeurIPS 2024 年共接收了 15671 篇论文(比去年又增长了27%),录取率为25.8%(去年为 26.1%),大概 4043 篇左右。1, 2, 3
  • 公开数据显示,中国人民大学、字节跳动、蚂蚁集团、腾讯等中国高校和互联网企业均分别有数十篇论文被NeurIPS 2024收录。 蚂蚁集团被 NeurIPS 2024 收录了20篇论文,其中有一篇为Spotlight(特别关注)。按往年数据估算,NeurIPS 的 Spotlight 论文录取率约为 3%。 1
  • 在这4000多篇论文中,一共有两篇论文获得最佳论文奖, 其中一篇就是tky的《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》(视觉自回归建模:通过Next-Scale预测生成可扩展图像),1
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

2、论文:摘要,正文,结论

项目模型和代码,论文正式版 , 预印本

参考资料:1, 2,

背景介绍

  • 在自然语言处理中,以 GPT、LLaMa 系列等大语言模型为例的 Autoregressive 自回归模型已经取得了较大的成功,尤其 Scaling Law 缩放定律和 Zero-shot Task Generalizability 零样本任务泛化能力十分亮眼,初步展示出通往「通用人工智能 AGI」的潜力。
  • 然而在图像生成领域中,自回归模型却广泛落后于扩散(Diffusion)模型:近期持续刷屏的 DALL-E3、Stable Diffusion3、SORA 等模型均属于 Diffusion 家族。此外,对于视觉生成领域是否存在「Scaling Law 缩放定律」仍未知,即测试集损失是否随模型或训练开销增长而呈现出可预测的幂律 (Power-law) 下降趋势仍待探索。GPT 形式自回归模型的强大能力与 Scaling Law,在图像生成领域,似乎被「锁」住了
  • 剑指「解锁」自回归模型的能力和 Scaling Laws,研究团队从图像模态内在本质出发,模仿人类处理图像的逻辑顺序,提出一套全新的「视觉自回归」生成范式:VAR, Visual AutoRegressive Modeling,首次使得 GPT 风格的自回归视觉生成,在效果、速度、Scaling 能力多方面超越 Diffusion,并迎来了视觉生成领域的 Scaling Laws。

在这里插入图片描述

实现方案

  • VAR 方法核心:模仿人类视觉,重新定义图像自回归顺序
    人类在感知图像或进行绘画时,往往先概览全局、再深入细节。这种由粗到细、从把握整体到精调局部的思想非常自然。然而,传统的图像自回归(AR)却使用一种不符合人类直觉(但适合计算机处理)的顺序,即自上而下、逐行扫描的光栅顺序(或称 raster-scan 顺序),来逐个预测图像。
  • VAR 则「以人为本」,模仿人感知或人创造图像的逻辑顺序
    使用从整体到细节的多尺度顺序逐渐生成 token map。一个显著优势是大幅提高了生成速度:在自回归的每一步(每一个尺度内部),所有图像 token 是一次性并行生成的;跨尺度则是自回归的。这使得在模型参数和图片尺寸相当的情况下,VAR 能比传统 AR 快数十倍。
  • VAR 方法细节:两阶段训练
    VAR 在第一阶段训练一个多尺度量化自动编码器(Multi-scale VQVAE),在第二阶段训练一个与 GPT-2 结构一致(结合使用 AdaLN)的自回归 Transformer。
  • 作者表示,VAR 的自回归框架是全新的
    而具体技术方面则吸收了 RQ-VAE 的残差 VAE、StyleGAN 与 DiT 的 AdaLN、PGGAN 的 progressive training 等一系列经典技术的长处。VAR 实际是站在巨人的肩膀上,聚焦于自回归算法本身的创新。
    在这里插入图片描述

实验效果对比

  • VAR 在 Conditional ImageNet 256x256 和 512x512 上进行实验
    VAR 大幅提升了 AR 的效果,一转 AR 落后于 Diffusion 的局面
    VAR 仅需 10 步自回归步骤,生成速度大幅超过 AR、Diffusion,甚至逼近 GAN 的高效率
    通过 Scale up VAR 直至 2B/3B,VAR 达到了 SOTA 水平,展现出一个全新的、有潜力的生成模型家族。
  • 通过与 SORA、Stable Diffusion 3 的基石模型 Diffusion Transformer(DiT)对比
    更好效果:经过 scale up,VAR 最终达到 FID=1.80,逼近理论上的 FID 下限 1.78(ImageNet validation set),显著优于 DiT 最优的 2.10
    更快速度:VAR 只需不到 0.3 秒即可生成一张 256 图像,速度是 DiT 的 45 倍;在 512 上更是 DiT 的 81 倍
    更好 Scaling 能力:如左图所示,DiT 大模型在增长至 3B、7B 后体现出饱和现象,无法靠近 FID 下限;而 VAR 经过缩放到 20 亿参数,性能不断提升,最终触及 FID 下限
    更高效的数据利用:VAR 仅需 350 epoch 训练即超过 DiT 1400 epoch 训练
  • Scaling Law 实验
    Scaling law 可谓是大语言模型的「皇冠明珠」。相关研究已经确定,在 Scale up 自回归大型语言模型过程中,测试集上的交叉熵损失 L,会随着模型参数量 N、训练 token 个数 T,以及计算开销 Cmin 进行可预测的降低,呈现出幂律(Power-law)关系。
    通过实验,研究者观察到了 VAR 展现出与 LLM 几乎完全一致的幂律 Scaling Law:研究者训练了 12 种大小的模型,缩放模型参数量从 1800 万到 20 亿,总计算量横跨 6 个数量级,最大总 token 数达到 3050 亿,并观察到测试集损失 L 或测试集错误率 与 N 之间、L 与 Cmin 之间展现出平滑的的幂律关系,并拟合良好
  • Zero-shot 实验
    得益于自回归模型能够使用 Teacher-forcing 机制强行指定部分 token 不变的这一优良性质,VAR 也展现出一定的零样本任务泛化能力。在条件生成任务上训练好的 VAR Transformer,不通过任何微调即可零样本泛化到一些生成式任务中,例如图像补全(inpainting)、图像外插(outpainting)、图像编辑(class-condition editing),并取得一定效果
    在这里插入图片描述

结论

  • VAR 为如何定义图像的自回归顺序提供了一个全新的视角,即由粗到细、由全局轮廓到局部精调的顺序。在符合直觉的同时,这样的自回归算法带来了很好的效果:VAR 显著提升自回归模型的速度和生成质量,在多方面使得自回归模型首次超越扩散模型。

3、导读:文章核心内容总结

本节来源 ,AI总结

1. 核心思想

  • Next-Scale Prediction(下一尺度预测)
    传统自回归模型(如PixelRNN)逐像素生成图像,计算效率低且难以捕获长程依赖。本文提出按尺度渐进生成:先生成低分辨率图像,再逐步预测更高分辨率的细节,形成层级生成过程。
  • 自回归的跨尺度扩展
    将自回归建模从像素空间转移到尺度空间,每个步骤基于当前尺度的图像预测下一尺度的残差细节,而非直接生成完整图像。

2. 关键技术

  • 多尺度图像分解
    将图像分解为不同尺度的金字塔表示(如从64×64→128×128→256×256…),每个尺度对应一组残差特征。
  • 条件自回归建模
    使用Transformer或CNN模型,以当前尺度图像为条件,预测下一尺度的残差(即Δ = Next_Scale − Current_Scale)。
  • 渐进训练策略
    分阶段训练模型,先训练低尺度生成,再逐步扩展到高尺度,避免直接处理高分辨率数据的复杂性。

3. 优势与创新

  • 可扩展性
    通过分尺度生成,显著降低计算复杂度,支持生成超高分辨率图像(如1024×1024以上)。
  • 细粒度控制
    用户可通过干预中间尺度的生成结果(如草图→细节),实现可控的图像编辑。
  • 高质量生成
    相比传统自回归模型,能更好地捕获全局结构和局部细节的关联。

4. 应用场景

  • 高分辨率图像合成:适用于艺术创作、游戏素材生成等。
  • 图像编辑与修复:基于中间尺度结果进行局部修改(如替换物体、修复遮挡区域)。
  • 多模态生成:与文本/布局条件结合,实现文本到图像的精准生成。

5. 对比现有方法

  • vs 扩散模型(Diffusion)
    扩散模型通过迭代去噪生成图像,计算成本高;而分尺度自回归能更高效地利用层级结构。
  • vs 传统自回归模型(如PixelCNN)
    避免了逐像素生成的序列过长问题,通过尺度跳跃加速推理。
  • vs GANs
    避免了模式坍塌问题,生成结果更稳定,且支持渐进式编辑。

6. 未来方向

  • 与潜在扩散结合:在潜在空间进行分尺度自回归,进一步提升效率。
  • 动态尺度调度:根据图像内容自适应选择下一生成尺度,优化资源分配。

该方法通过尺度维度重新思考自回归建模,为大规模图像生成提供了新的平衡点——在生成质量、计算效率和可控性之间取得了显著改进。

相关文章:

  • 打造智慧养老实训室,构建科技赋能养老新生态
  • TDengine 车联网案例
  • 51单片机同一个timer 作为定时器和波特率发生器么?
  • LeetCode 热题 100 79. 单词搜索
  • Spring Cloud Stream集成RocketMQ(kafka/rabbitMQ通用)
  • 如何选择 边缘计算服务器
  • 代码随想录图论part03
  • 总结一下最近的知识盲区(个人笔记)
  • 抖音热门视频评论数追踪爬虫获取
  • C++ 项目 -- 高并发内存池
  • 数据可视化与分析
  • Elasticsearch知识汇总之ElasticSearch与OpenSearch比较
  • 第二章:langchain文本向量化(embed)搭建与详细教程-本地服务方式(下)
  • OpenGl实战笔记(3)基于qt5.15.2+mingw64+opengl实现光照变化效果
  • PyCharm 加载不了 conda 虚拟环境,不存在的
  • ChatGPT对话导出工具-轻松提取聊天记录导出至本地[特殊字符]安装指南
  • YOLO 从入门到精通学习指南
  • ai大模型学习1
  • Java面试全栈解析:Spring Boot、Kafka与Redis实战揭秘
  • 干货分享|检索增强生成技术RAG:向量化与大模型的结合
  • 李云泽:大型保险集团资本补充已经提上日程
  • 韩正出席庆祝中国欧盟建交50周年招待会并致辞
  • 外交部:中方和欧洲议会决定同步全面取消对相互交往的限制
  • 抗战回望18︱《广西学生军》:“广西的政治基础是青年”
  • 3477亿美元!伯克希尔一季度现金储备再创新高,担忧关税战不确定性影响
  • 新华社评论员:在推进中国式现代化的宽广舞台上绽放青春光彩