当前位置：首页 > news >正文

RAE：Diffusion Transformers with Representation Autoencoders

news 2025/11/4 15:13:42

abstract

作者认为原来的假设/实验结论是错误的：（1）语义建模和重建目标是互相冲突的；（2）diffusion很难预测高维空间特征

method

之前的方法假设diffusion 很难学习高维空间的内容
VAE + diffusion
- 以重构损失为目标训练VAE，将图片压缩到低维度空间，但是token 数目多，比如2562564（token=256*256, dim=4)
- diffusion 预测vae-emb，然后通过VAE-Decoder 重建
RAE+Diffusion
- 预训练的语义encoder，高维度编码，少量token，比如768*256（token=256,dim=768）
- diffusion预测语义embedding，然后通过一个单独训练的VIT decoder 重建
为了能够让diffusion预测高维特征，做出的改进：
- 匹配模型宽度与潜在维度→ 要求DiT的隐藏层宽度 ≥ 潜在token的通道数（否则无法有效拟合）。
- 维度感知的噪声调度调整（Dimension-dependent shift）→ 原有的噪声调度策略针对像素或低维VAE设计，在高维空间下需重新校准时间步。
- 噪声增强解码器训练（Noise-augmented decoding）→ 在训练解码器时加入噪声，使其能更好地处理扩散模型输出的“非完美”潜在变量。

此外，为了更高效地扩展模型宽度而不增加过多计算成本，作者引入了一个新架构 DiTDH（受DDT启发），它包含一个浅但极宽的“去噪头”（wide diffusion head），专门负责处理高维输入。

实验结果

在ImageNet上实现了新的SOTA性能：
- 256×256分辨率，无引导生成 FID = 1.51，有AutoGuidance时 FID = 1.13（256×256 和 512×512）
- 训练收敛速度比现有方法快数十倍（如比SiT快47倍）
- 所有指标均超越此前基于VAE的方法

http://www.dtcms.com/a/566584.html

相关文章：

医院网站开发多少钱烟台网络公司员工人数

算法学习记录11——Python 多变量赋值问题

怎样拥有自己的网站外行学习个人网站建设

建设部城市管理监督局网站官网建站系统源代码

html网站地图模板房地产型网站建设

基于YOLOv10的水质污染检测：水面漂浮油污与垃圾智能识别实战

大唐网站建设全国文明城市创建方案

奉贤集团网站建设军队房地产与建设工程法律实务在哪个网站可以购买

上海做网站培训班成都室内设计公司排名前十

建设网站公司是什么淘宝网站的推广方案

长沙自助模板建站网上商城是什么

【动手学深度学习】关于数据转换的时候出现TypeError和iloc

网站建设案例杭州远大昆明网站建设熊掌号

无锡网站建设方案优化网站建设吕凡科技

MODBUS协议学习（基于RS485总线）一文学会

Win10/Win11文件夹图片不能预览怎么解决？

linux之arm SMMUv3 client 设备DMA配置过程分析（8）

Java企业实战微服务全栈零基础完整使用

做外贸网站邮箱申请百度自动点击器

楼盘东莞网站建设关于网站建设的合同范本

代码随想录训练营打卡Day34｜动态规划part03

ES 使用URL增删改查

C++中指针和引用的区别

对单位网站建设的建议昆明网站设计都需要设计什么

一流的龙岗网站设计旅游网站制作分析

建设网站需要申请什么网站建设20推广

轻量级网站开发简单网站设计

win10程序（十四）pdf转docx简易版

怎么把网站关联到万网做网站网关备案

网站的优化用什么软件wordpress门户型多栏设计