当前位置: 首页 > news >正文

RandAR训练自己的数据集

论文题目:RandAR: Decoder-only Autoregressive Visual Generation in Random Orders(随机顺序下仅解码器的自回归视觉生成)

会议:CVPR2025

摘要:我们介绍了RandAR,一种仅解码器的视觉自回归(AR)模型,能够以任意令牌顺序生成图像。与之前依赖于预定义生成顺序的纯解码器AR模型不同,RandAR消除了这种归纳偏差,解锁了纯解码器生成的新功能。我们的基本设计通过在每个要预测的图像标记之前插入“位置指令标记”来实现随机顺序,表示下一个图像标记的空间位置。RandAR在随机排列的标记序列上进行训练,这是一项比固定顺序生成更具挑战性的任务,它的性能与传统的光栅顺序相当。更重要的是,从随机指令训练的只有解码器的变压器获得了新的能力。针对AR模型的效率瓶颈,RandAR在推理时采用KV-Cache并行解码,在不牺牲生成质量的情况下享受2.5 ×加速。此外,RandAR以零样本学习的方式支持绘制,绘制和分辨率外推。我们希望RandAR能激发解码器视觉生成模型的新方向,并拓宽它们在不同场景中的应用

源码链接:https://rand-ar.github.io/


引言

在人工智能图像生成领域,autoregressive(自回归)模型一直扮演着重要角色。受到GPT等语言模型成功的启发,研究者们将"下一个token预测

http://www.dtcms.com/a/348315.html

相关文章:

  • 多核多线程消息队列传递指针存在可见性问题吗?
  • 如何安全解密受限制的PDF文件
  • 20年AWS服务进化史
  • 基于Spring Boot与Redis的电商场景面试问答解析
  • 鸿蒙中点击响应时延分析
  • 在 AWS ECS Fargate 上将 Datadog 作为 SideCar 运行
  • NLP:Transformer残差连接的作用(特别分享2)
  • elasticsearch 7.17.23 使用spring data es实现高亮分页,scroll查询分页查询
  • AI+SaaS工具实战:如何靠AI赋能CRM/财务SaaS实现企业降本28%+效率提升40%
  • Vue 项目 package.json 终极详解(主流实践 / 逐项说明)
  • element-plus穿梭框transfer的调整
  • Git连接Github远程仓库的代理设置
  • centerpoint训练过程
  • 包含单负介质的夹层结构中的电磁隧穿现象的复现
  • 设计模式:建造者模式
  • linux下camera 详细驱动流程 OV02K10为例(chatgpt版本)
  • css3之flex布局
  • 在 Ruby 客户端里用 ES|QL
  • 知识蒸馏 Knowledge Distillation 0. 基础:自回归分解与逐 token散度
  • 重学python之mro
  • 【科研绘图系列】R语言浮游植物初级生产力与光照强度的关系
  • 28.原型
  • 详解triton.jit及PTX
  • 目标检测数据集 第006期-基于yolo标注格式的汽车事故检测数据集(含免费分享)
  • vue 自定义文件选择器组件- 原生 input实现
  • 一文学习和掌握网关SpringCloudGateway
  • Java基础知识(五)
  • 南科大C++ 第二章知识储备
  • 电脑深度清理软件,免费磁盘优化工具
  • Shell脚本-如何生成随机数