当前位置: 首页 > news >正文

(论文速读)并行自回归视觉生成

论文题目:Parallelized Autoregressive Visual Generation(并行自回归视觉生成)

会议:CVPR2025

摘要:自回归模型已成为一种强大的视觉生成方法,但由于其顺序的逐个标记预测过程,导致推理速度慢。在本文中,我们提出了一种简单而有效的并行化自回归视觉生成方法,在保留自回归建模优点的同时提高了生成效率。我们的关键见解是,并行生成依赖于视觉令牌依赖关系——具有弱依赖关系的令牌可以并行生成,而强依赖的相邻令牌很难一起生成,因为它们的独立采样可能导致不一致。基于这一观察,我们开发了一种并行生成策略,该策略可以并行生成具有弱依赖关系的远程令牌,同时保持对强依赖的本地令牌的顺序生成。我们的方法可以无缝地集成到标准的自回归模型中,而无需修改体系结构或标记器。在ImageNet和UCF-101上的实验表明,我们的方法在图像和视频生成任务中都实现了3.6倍的加速和高达9.5倍的加速,并且质量下降最小。我们希望这项工作能够启发未来在高效视觉生成和统一自回归建模方面的研究。

项目页面:http://yuqingwang1029.github.io /PAR-project。


核心问题:自回归视觉生成的速度瓶颈

自回归模型在视觉生成任务中表现出色,具有强大的可扩展性和统一建模能力。然而,这类模型面临一个关键问题:推理速度过慢。传统方法需要按照栅格扫描顺序逐个生成视觉token,这种严格的序列化生成过程导致生成时间与序列长度成正比,严重限制了实际应用。

现有解决方案的局限性:

  • 语言模型的并行方法(如speculative decoding)需要额外的辅助模型
  • 专门的视觉方法(如VAR)需要特殊设计的多尺度tokenizer和更长的token序列
  • 这些方法增加了模型复杂度,限制了自回归模型作为统一解决方案的灵活性

核心创新点

1. 关键洞察:token依赖关系决定并行生成可行性

论文提出了一个重要观察:并行生成的成功与否取决于视觉token之间的依赖强度

  • 强依赖的相邻token:难以并行生成,独立采样会导致不一致性
  • 弱依赖的远距离token:可以安全并行生成

2. 非局部并行生成策略

核心思想: 生成空间距离远的弱相关token,而不是相邻的强相关token

具体实现:(见核心问题前的图像)

阶段1:顺序生成每个区域的初始token [1,2,3,4]
阶段2:并行生成对应位置的token [5a,5b,5c,5d] → [6a,6b,6c,6d] → ...

设计原理:

  • 将图像划分为M×M个区域
  • 初始token建立全局结构,必须顺序生成
  • 后续token按对应位置跨区域并行生成

3. 架构集成方案

无缝集成: 无需修改标准transformer架构或tokenizer 关键技术:

  • 2D旋转位置编码(RoPE)保持空间关系
  • 组内双向注意力 + 组间因果注意力
  • 可学习的过渡token帮助模式切换

实验结果

图像生成性能(ImageNet)

模型生成步数时间(秒)FID加速比
LlamaGen57612.412.18
PAR-4×1473.462.293.6×
PAR-16×511.312.889.5×

视频生成性能(UCF-101)

模型生成步数时间(秒)FVD加速比
PAR-1×128043.3094.1
PAR-4×32311.2799.53.8×
PAR-16×953.44103.412.6×
http://www.dtcms.com/a/344771.html

相关文章:

  • 硬件驱动---linux内核驱动 启动
  • 【LeetCode】21. 合并两个有序链表
  • 开发二手车小程序时,如何确保信息的真实性和可靠性?
  • Prometheus+Grafana监控redis
  • 【连接器专题】连接器接触界面的理解
  • Elasticsearch Rails 集成(elasticsearch-model / ActiveRecord)
  • 高速互联技术——NVLink
  • SpringBoot3集成Oauth2.1——8自定义认证模式(密码模式)
  • 第九届86358贾家庄短片周在山西汾阳贾家庄举办
  • 将博客网站完整迁移至本地虚拟机
  • 爬虫基础学习-授权认证,cookie认证,异常处理
  • 最短路径问题(图论)
  • 中国SM系列密码算法的入门教程
  • 网络实践——Socket编程UDP
  • Seaborn数据可视化实战:Seaborn颜色与样式定制教程
  • elasticsearch的使用
  • odoo-065 两个视图中的action类型的button互相引用,造成死循环
  • ubuntu使用fstab挂载USB设备(移动硬盘)
  • Claude Code接入Serena mcp
  • ESP32C5,使用espidf框架配置wifi扫描时报错,为什么会提示,ghz_5_channels的参数无效呢
  • 开发避坑指南(32):FastJSON异常JSONArray cannot be cast to JSONObject解决方案
  • 什么是数据分类分级?数据分类分级技术实现路径及产品推荐
  • ​Kubernetes 详解:云原生时代的容器编排与管理
  • 08.21总结
  • 【yocto】BitBake指令汇总解析
  • 基于springboot的农产品社区配送系统
  • 线性回归的学习
  • C++ unistd.h库文件介绍(文件与目录操作, 进程管理, 系统环境访问, 底层I/O操作, 系统休眠/执行控制)
  • golang 非error错误分类
  • 【如何生成专业级 API 接口文档:从规范到实战】