当前位置: 首页 > news >正文

论文阅读笔记——Autoregressive Image Generation without Vector Quantization

MAR 论文
基于 VQ(向量量化)的图像生成方法具有显著优势,它通过离散化压缩将原始图像映射到有限的 codebook 空间,从而缩小学习范围、降低建模难度,同时这种离散表示更易于与自回归(AG)生成方式结合,提升多模态任务(如文本到图像生成)的融合能力;然而,该方法也存在明显局限性,包括训练难度较高(容易导致codebook利用率不足,仅部分编码参与计算,严重制约模型表达能力)、解码重建质量欠佳等问题,其根本原因在于VQ本质上是一种有损压缩方式,不可避免会丢失部分信息。
在这里插入图片描述
本文的核心创新点在于彻底摒弃了传统VQ(向量量化)方法,直接进行自回归图像生成。作者提出关键观点:在自回归学习框架下,预测下一个 token x 时,离散化表征并非必要条件——若允许 x 保持连续性,则 VQ 机制自然失去存在价值。为实现这一目标,论文创新性地采用扩散模型(diffusion)的损失函数替代传统的交叉熵损失,从而将x建模为连续概率分布而非离散符号。这一转变不仅绕过了 VQ 带来的信息损失问题,更通过连续空间的建模提升了生成质量。
在这里插入图片描述
当前主流的大语言模型(LLM)普遍采用单向Causal Attention机制,这确实符合语言生成的序列特性(当前词只依赖历史信息)。然而,在图像生成领域,双向Attention可能更具优势——与语言中词与词的线性依赖不同,图像中的像素或patch往往与其周围区域存在空间上的相互影响。通过双向Attention建模这种全局上下文关系,理论上可以更自然地捕捉图像的空间结构特征,同时仍能保持自回归生成的特性(通过适当的掩码机制实现)。这种改进既保留了自回归的序列生成优势,又弥补了单向Attention对图像空间关系建模的不足。

传统的自回归图像生成通常采用固定的序列顺序(如从左到右、从上到下逐行生成图像块),如图(a)所示。然而,本文提出这种固定顺序的生成方式并非最优解。受掩码语言模型(MLM)的启发,论文创新性地提出 掩码自回归(Masked Autoregressive, MAR) 方法——如图(b)所示,模型可以随机选择生成任意位置的图像块,而无需遵循预设顺序。这种灵活生成方式带来两个关键优势:首先,它突破了传统自回归模型的顺序限制,使生成过程更符合图像的空间特性;其次,如图©所示,MAR支持同时预测多个被掩码的图像块,从而显著提升解码速度。这一设计在保持自回归建模优势的同时,实现了更高效的并行化生成。

实验

在这里插入图片描述
(1)在自回归中,用diff loss代替 CE loss,效果都是有提升,说明了diff loss的有效;
(2)在AR下(第一行),diff loss相比 CE loss提升的并不明显,当切换成论文提出的MAR形式,这个提升优势就愈加明显。
(3)在MAR_default(masked AR,就是上述©图形式)下,表现最好,而且即是是CE loss,也是相比之前的变体,也是又很明显的提升,说明masked AR在图像任务的有效性。

http://www.dtcms.com/a/265573.html

相关文章:

  • 当材料研发遇上「数字集装箱」:Docker如何让科研效率「开挂」?
  • 【unity游戏开发——优化篇】使用Occlusion Culling遮挡剔除,只渲染相机视野内的游戏物体提升游戏性能
  • AES密码算法的C语言实现(带测试)
  • 经典灰狼算法+编码器+双向长短期记忆神经网络,GWO-Transformer-BiLSTM多变量回归预测,作者:机器学习之心!
  • 【TTS】2024-2025年主流开源TTS模型的综合对比分析
  • 仿星露谷物语开发总结VIP(Unity高级编程知识)
  • RabbitMQ 通过HTTP API删除队列命令
  • 【RK3568+PG2L50H开发板实验例程】Linux部分/FPGA FSPI 通信案例
  • 【机器学习深度学习】什么是下游任务模型?
  • laravel基础:php artisan make:model Flight --all 详解
  • 【PaddleOCR】OCR文本检测与文本识别数据集整理,持续更新......
  • 【QT】QWidget控件详解 || 常用的API
  • 蓝桥杯C++组算法知识点整理 · 考前突击(中)【小白适用】
  • Java调用百度地图天气查询服务获取当前和未来天气-以贵州省榕江县为例
  • 【字节跳动】数据挖掘面试题0006:SVM(支持向量机)详细原理
  • JVM类加载过程
  • 车载电子电气架构 --- 从车窗演进看车联网的需求、发展与选择
  • 2025年游戏鼠标推荐,游戏鼠标推荐,打CSGO(罗技、雷蛇、卓威、ROG、漫步者、赛睿、达尔优)
  • 前端-HTML-day2
  • 从生活实例看:点积、内积和矩阵乘法如何玩转机器学习
  • 物联网MQTT协议与实践:从零到精通的硬核指南
  • I/O 进程 7.2
  • Mysql锁机制与优化实践以及MVCC底层原理剖析
  • TensorFlow 安装使用教程
  • 6. 常见K线形态(楔形与旗形)
  • Laravel8中调取腾讯云文字识别OCR
  • 中文语境下的视频生成革命:百度 MuseSteamer 的“产品级落地”启示录
  • 手机内存融合是什么意思
  • Redis 的特性、工作机制与性能优化全解(含搭建实战教程)
  • 用 vLLM 在两张 RTX 3090 上部署 Qwen2.5-14B BF16全量大模型的完整过程