当前位置: 首页 > news >正文

【论文精读】GenTron:基于 Transformer 的扩散模型革新图像与视频生成

标题:GenTron: Diffusion Transformers for Image and Video Generation

作者:Shoufa Chen, Mengmeng Xu, Jiawei Ren, Yuren Cong, Sen He, Yanping Xie, Animesh Sinha, Ping Luo, Tao Xiang, Juan-Manuel Perez-Rua

单位:1.The University of Hong Kong(香港大学);2.Meta

发表:CVPR 2024,且为 Open Access 版本,由 Computer Vision Foundation 提供

论文链接:https://arxiv.org/abs/2312.04557

项目链接:https://www.shoufachen.com/gentron_website/

代码链接:https://github.com/lavinal712/GenTron

关键词:Diffusion Models(扩散模型)、Transformers(Transformer 架构)、Text-to-Image Generation(文本到图像生成)、Text-to-Video Generation(文本到视频生成)、Motion-Free Guidance(无运动引导)、T2I-CompBench(文本到图像组合生成基准)


本文是对CVPR 2024 论文《GenTron: Diffusion Transformers for Image and Video Generation》的深度解读。该研究由香港大学与 Meta 团队合作完成,首次系统性将 Transformer 架构深度融入扩散模型,同时覆盖文本到图像(T2I)与文本到视频(T2V)生成场景,填补了视觉生成领域 Transformer 应用的空白,且在多项指标上超越主流模型 SDXL。

一、研究背景与动机:为何需要 GenTron?

1.1 扩散模型的架构 “割裂” 现状

扩散模型已成为内容生成领域的核心技术,在图像生成(如 Stable Diffusion)、视频生成(如 Imagen Video)、图像编辑等任务中表现突出,但长期依赖CNN-based U-Net作为核心骨干网络。与之形成鲜明对比的是,自然语言处理(NLP,如 GPT 系列)和计算机视觉感知(如目标检测、图像分类)领域,Transformer 架构凭借灵活的注意力机制、强大的全局信息捕捉能力与优异可扩展性,早已成为绝对主流。

这种架构选择的 “割裂”,导致视觉生成领域无法充分利用 Transformer 的技术优势,也使得跨领域(NLP - 视觉生成)的模型迁移与技术复用受限。因此,探索 Transformer 在扩散模型中的深度应用,成为连接视觉生成与其他 AI 领域的关键突破口。

1.2 现有 Transformer 扩散模型的两大局限

此前最具代表性的 Transformer 扩散模型是 DiT(Diffusion Transformers),但它存在两大核心局限,无法满足开放域文本驱动生成需求:

  • 条件约束单一:仅支持预定义类别(如 ImageNet 的 1000 类)的 one-hot 编码输入,无法处理开放域、自由文本描述的生成任务(如 “夕阳下在海上冲浪的熊猫” 这类复杂文本);
  • 模型规模不足:最大的 DiT-XL 模型仅 6.75 亿参数,远小于 NLP 领域(如 PaLM 达 5400 亿参数)、视觉感知领域(如 ViT 达 220 亿参数)的 Transformer 模型,更落后于同期 U-Net 架构的扩散模型(如 SDXL 达 26 亿参数),难以通过规模提升生成质量。

1.3 研究目标:GenTron 的三大核心任务

针对上述问题,GenTron 设定三大研究目标:

  1. 将 DiT 从 “类别条件” 扩展到 “文本条件”,探索高效的文本嵌入与 Transformer 融合机制;
  2. 规模化扩展模型参数(从约 9 亿提升至 30 亿 +),验证 Transformer 扩散模型的 “规模 - 性能” 正相关特性;
  3. 延伸至文本到视频(T2V)生成,提出创新策略解决 T2V 领域 “帧质量低”“时空不一致” 的核心痛点,并通过实验验证模型优越性。

二、核心方法:GenTron 的技术架构详解

GenTron 的技术方案围绕 “T2I 基础架构→模型规模化→T2V 扩展” 三步展开,每个环节均针对具体问题提出了创新设计,以下逐一拆解。

2.1 基础铺垫:扩散模型与 Latent Diffusion 原理

GenTron 基于Latent Diffusion Model(LDM) 框架构建,核心是通过 “latent 空间压缩” 降低计算成本,其流程与数学原理如下:

  1. Latent 空间压缩:利用预训练变分自编码器(VAE)将高分辨率像素图像(如 512×512)压缩到低维 latent 空间(如 32×32×4),减少扩散过程的计算量;
  2. 扩散过程
    • 前向过程:向 latent 向量逐步添加高斯噪声,经过 T 步后,latent 向量变为纯噪声,数学表达式为:q\left(x_{t} | x_{t-1}\right)=\mathcal{N}\left(x_{t} ; \sqrt{1-\beta_{i}} x_{t-1}, \beta_{t} I\right),其中\beta_t为噪声调度参数,控制每步噪声添加强度;
    • 反向过程:训练 denoising 网络(GenTron 中为 Transformer)从噪声中逐步恢复与文本匹配的 latent 向量,恢复公式为:x_{t-1}=\frac{1}{\sqrt{\alpha_{t}}}\left(x_{t}-\frac{1-\alpha_{t}}{\sqrt{1-\overline{\alpha}_{t}}} \epsilon_{\theta}\left(x_{t}, t\right)\right)+\sigma_{t} z,其中\alpha_t=1-\beta_t\overline{\alpha}_t=\prod_{s=1}^t \alpha_s\epsilon_\theta为 denoising 网络,z为随机高斯噪声;
  3. 解码生成:将恢复的 latent 向量通过 VAE 解码器转换为像素级图像。

2.2 T2I GenTron:文本条件注入与模型优化

GenTron-T2I 以 DiT-XL/2 为基础,核心改进是文本条件注入机制模型规模化设计,解决 DiT 无法处理自由文本的问题。

2.2.1 文本条件注入:两大关键组件的选择与对比

文本条件注入需解决两个核心问题:“用什么模型编码文本”(文本编码器)、“如何将文本嵌入融入 Transformer”(嵌入整合方式)。GenTron 通过大量实验,确定了最优技术组合。

(1)文本编码器:多模态模型 vs 大语言模型

研究对比了三类文本编码器,并验证其对生成性能的影响(表2):

  • 多模态文本塔(MM):如 CLIP-L,擅长捕捉文本与图像的跨模态对齐关系,但对复杂文本的语法、属性理解能力较弱;
  • 纯大语言模型(LLM):如 Flan-T5-XXL,擅长理解文本的逻辑关系、属性描述(如 “红色的车”“圆形的桌子”),但缺乏跨模态对齐能力;
  • 组合方案(CLIP-T5XXL):同时融合 CLIP 与 T5 的文本嵌入,兼顾跨模态对齐与复杂文本理解能力。

实验结论:组合方案(CLIP-T5XXL)在 T2I-CompBench 所有指标上表现最优,平均得分达 49.13(XL/2 规模),显著高于单一编码器方案,成为 GenTron 的默认文本编码器。

(2)嵌入整合方式:adaLN-Zero vs 交叉注意力

GenTron 对比了两种将文本嵌入融入 Transformer 的机制(图2),并分析其适用场景:

  • adaLN-Zero(自适应层归一化):源自 DiT,将文本嵌入转换为层归一化(LN)的缩放(\(\gamma\))和偏移(\(\beta\))参数,对图像特征进行全局调制。优点是计算高效,但空间粒度粗,无法实现文本与图像局部区域的精准对齐(如 “红色的车” 中 “红色” 与车的对应);
  • 交叉注意力(Cross-Attention):将图像特征作为查询(Query),文本嵌入作为键(Key)和值(Value),通过注意力权重实现文本与图像局部区域的精准匹配。同时,GenTron 保留 adaLN 处理 “时间嵌入”(扩散步长信息),避免时间信息与文本信息的干扰。

关键验证:在自由文本条件下,交叉注意力显著优于 adaLN-Zero。如下图(图4)所示,生成 “夕阳下在海上冲浪的熊猫” 时,adaLN-Zero 无法准确渲染 “冲浪板”“夕阳” 等元素,而交叉注意力能精准匹配文本描述;定量上,如前面的表2中第一行和第二行对比数据所示,交叉注意力在 T2I-CompBench 的平均得分比 adaLN-Zero 高 13.5 分(47.84 vs 34.32)。

2.2.2 模型规模化:GenTron-G/2 的 30 亿参数设计

为验证 Transformer 扩散模型的 “规模 - 性能” 正相关特性,GenTron 遵循 ViT 的规模化策略,从三个维度扩展模型(表 1):

  • 深度(Depth):Transformer 块数量从 28(XL/2)增加到 48(G/2);
  • 宽度(Width):patch 嵌入维度从 1152 增加到 1664;
  • MLP 宽度(MLP Width):Transformer 块中 MLP 的隐藏层维度从 4608 增加到 6656。

最终,GenTron-G/2 的参数规模达到 30.8 亿,成为当时最大的 Transformer 扩散模型。规模化带来的性能提升体现在两方面(图 5):

  • 细节渲染:生成 “读报纸的猫” 时,G/2 能清晰渲染报纸文字、猫的毛发纹理,而 XL/2 细节模糊;
  • 布局合理性:G/2 能正确处理 “猫” 与 “报纸” 的空间关系(猫爪搭在报纸上),XL/2 则出现布局混乱。

定量上(表 2中最后一行数据),G/2 在 T2I-CompBench 的平均得分达 49.99,比 XL/2(49.13)高 0.86 分,验证了规模对生成质量的正向影响。

2.3 T2V GenTron:时序建模与 Motion-Free Guidance

GenTron-T2V 在 T2I 基础上扩展,核心挑战是 “保证帧内视觉质量的同时,实现帧间时空一致性”。现有 T2V 模型普遍存在 “帧质量低于 T2I” 的问题,GenTron 通过 “轻量化时序建模” 与 “Motion-Free Guidance(MFG)” 两大创新解决这一痛点。

2.3.1 T2V 架构:仅添加时序自注意力的轻量化设计

GenTron 避免传统 T2V 模型添加 3D 卷积和复杂时序块的高成本做法,仅在 T2I 的每个 Transformer 块中插入时序自注意力(TempSelfAttn)层(图 3),实现高效时序建模。

具体流程为:

  1. 维度重排:将视频的 “帧维度(t)” 与 “批次维度(b)” 重组,从((b, t), n, d) 变为((b, n), t, d)n 为每帧的 patch 数量,d 为嵌入维度。(使用 einops 库中的 rearrange 函数);
  2. 时序注意力计算:在重组后的维度上计算自注意力,捕捉帧间运动信息(如 “行走的狗” 的肢体动作变化);
  3. 维度恢复:将注意力输出重组回原维度,接入后续 MLP 层。

这种设计的优势在于:

  • 轻量化:仅增加少量计算量,避免 3D 卷积的高显存占用;
  • 可开关性:通过掩码可灵活启用 / 禁用时序建模,为 MFG 奠定基础;
  • 初始化策略:新添加的 TempSelfAttn 层输出投影权重初始化为 0,确保微调初期与 T2I 模型性能一致,避免帧质量骤降。
2.3.2 Motion-Free Guidance(MFG):平衡帧质量与时空一致性

现有 T2V 模型帧质量低的核心原因有二:

  1. 数据质量差距:视频数据集(如 WebVid-10M 仅 1070 万视频文本对)的规模和质量远低于图像数据集(如 LAION-5B 达 20 亿图像文本对),且视频帧常存在运动模糊、水印等问题;
  2. 微调目标冲突:T2V 微调时过度关注时序一致性,导致空间质量(如纹理、颜色)退化。

GenTron 提出MFG 策略,结合 “联合图像 - 视频训练”,从数据与训练目标两方面解决上述问题:

(1)MFG 核心思想

将时序运动视为 “可调节的条件信号”,类比文本条件的 “无分类器引导(Classifier-Free Guidance)”,通过随机禁用时序建模,迫使模型保留 T2I 的空间质量。

(2)训练阶段:随机禁用时序建模

训练时,以概率p_{motion-free}将 TempSelfAttn 的注意力掩码设为单位矩阵(仅关注当前帧,禁用帧间注意力),此时:

  • 若禁用时序建模:加载图像 - 文本对,将单张图像重复 T-1 次生成 “伪视频”,用 T2I 的目标优化空间质量;
  • 若启用时序建模:加载真实视频剪辑(8 帧,4 FPS),优化时序一致性。
(3)推理阶段:可控运动强度

推理时,通过引导权重\lambda_M调节运动强度,公式如下:\begin{aligned} \tilde{\epsilon}_{\theta} & =\epsilon_{\theta}\left(x_{t}, \varnothing , \varnothing \right) \\ & +\lambda_{T} \cdot\left(\epsilon_{\theta}\left(x_{t}, c_{T}, c_{M}\right)-\epsilon_{\theta}\left(x_{t}, \varnothing , c_{M}\right)\right) \\ & +\lambda_{M} \cdot\left(\epsilon_{\theta}\left(x_{t}, \varnothing , c_{M}\right)-\epsilon_{\theta}\left(x_{t}, \varnothing , \varnothing \right)\right) \end{aligned},其中,c_T为文本条件,c_M为运动条件;\lambda_T(默认 7.5)控制文本对齐强度,\lambda_M(1.0-1.3)控制运动强度,取值越大,视频运动越剧烈。

效果验证(图 8):启用 MFG 后,生成 “夕阳下在海上冲浪的狮子” 时,狮子轮廓更清晰,冲浪板与海水细节更丰富,且帧间运动平滑,避免了无 MFG 时的模糊和变形。

2.4 训练细节:多阶段策略与优化技巧

GenTron 采用多阶段训练策略,结合显存优化技术,确保模型收敛与性能:

  • T2I 训练:分低分辨率(256×256,2048 batch size,50 万步)和高分辨率(512×512,784 batch size,30 万步)两阶段,使用 AdamW 优化器(学习率 1e-4);
  • T2V 训练:基于预训练 T2I 模型微调,使用 3400 万视频数据集(短边 512,24 FPS),批次大小 128(每批次含 8 帧视频剪辑);
  • 显存优化:GenTron-G/2 采用完全分片数据并行(FSDP)和激活检查点(AC),降低 GPU 显存占用。

三、实验验证:GenTron 的性能优势

GenTron 从定量指标(T2I-CompBench、FID、CLIP-Score)、人类评估(视觉质量、文本对齐)、视频生成质量三方面验证性能,对比对象包括 SDXL、DALL・E 2、PixArt-α 等主流模型。

3.1 图像生成性能(T2I)

3.1.1 T2I-CompBench:compositional 生成能力领先

T2I-CompBench 是评估文本 - 图像 “组合生成能力” 的权威基准,涵盖属性绑定(颜色、形状、纹理)、物体关系(空间、非空间)、复杂组合三大维度。

关键结果(表 3):

  • GenTron 在所有维度排名第一,平均得分 49.99,远超 SDXL(44.41)和 PixArt-α(48.15);
  • 优势最显著的是颜色绑定:GenTron 得 76.74,比 PixArt-α 高 7.88 分,说明其能精准匹配文本中的颜色描述(如 “蓝色的天空”“红色的玫瑰”);
  • 物体关系建模上,GenTron 在空间关系(如 “猫在桌子上”)得 20.98,略高于 PixArt-α(20.82),验证了交叉注意力的局部对齐能力。
3.1.2 零样本性能:数据效率优势

GenTron 使用 5.5 亿图像文本对(仅为 SDv1.4 的 1/4),但在零样本任务上表现优异(表 4):

  • CLIP-Score:GenTron-G/2 得 0.335,高于 SDXL(0.329)和 SDv1.4(0.325),说明文本 - 图像对齐更优;
  • FID-30K:GenTron-G/2 得 14.53,虽高于 SDv1.4(12.94),但作者指出 FID 与人类审美偏好存在负相关(如 SDXL 的 FID 更低但人类偏好低于 GenTron),需结合人类评估综合判断。
3.1.3 人类评估:显著超越 SDXL

GenTron 与 SDXL 进行盲测对比,使用 100 个 PartiPrompts 生成图像,收集 3000 份人类反馈(图 7):

  • 视觉质量:GenTron 的胜率达 51.1%(平局 19.8%),SDXL 胜率仅 29.1%;
  • 文本对齐:GenTron 的胜率达 42.3%(平局 42.9%),SDXL 胜率仅 14.8%;
  • 结论:人类更偏好 GenTron 生成的图像,认为其视觉更真实、与文本描述更匹配。

3.2 视频生成性能(T2V)

GenTron-T2V 的核心优势是 “帧质量高” 且 “时空一致”,具体表现为:

  • 视觉质量:生成的视频帧(如 “海滩上的巨型陆龟”“游泳的狗”)细节丰富,接近 T2I 模型的帧质量,避免了传统 T2V 模型的模糊和纹理丢失(图 6);
  • 时空一致性:通过 TempSelfAttn 和 MFG,视频帧间运动平滑(如陆龟的爬行、狗的划水动作),无明显跳帧或变形;
  • 可控性:调节\lambda_M可灵活控制运动强度,满足不同场景需求(如 “缓慢行走的人” vs “快速奔跑的人”)。

四、创新点与研究价值

4.1 核心创新点

  1. 首次系统性探索文本条件的 Transformer 扩散模型:通过对比文本编码器(CLIP/T5 / 组合)和嵌入整合方式(adaLN / 交叉注意力),确定 “CLIP-T5XXL + 交叉注意力” 的最优方案,为后续 Transformer 扩散模型提供范式;
  2. 验证了 Transformer 扩散模型的规模收益:GenTron-G/2(30 亿参数)的性能提升证明,通过扩大深度、宽度和 MLP 维度,Transformer 扩散模型可持续提升生成质量,打破 “扩散模型不适合大规模扩展” 的认知;
  3. MFG 策略解决 T2V 帧质量问题:通过随机禁用时序建模和联合图像 - 视频训练,平衡帧内质量与帧间一致性,为 T2V 模型提供新的训练范式;
  4. 数据效率优势:使用更少的训练数据(5.5 亿 vs 20 亿)实现优于 SDXL 的性能,降低模型训练的数据源依赖。

4.2 研究价值与未来方向

  • 理论价值:填补了 Transformer 在扩散模型中的应用空白,为视觉生成领域的架构选择提供新方向,推动 “Transformer 化” 趋势;
  • 应用价值:GenTron 可直接用于高 - quality 图像生成(如设计、创意)和视频生成(如短视频、动画),且支持运动强度调节,适配不同场景需求;
  • 未来方向
    1. 进一步扩大模型规模(如 100 亿参数),验证规模收益的上限;
    2. 优化 T2V 的推理速度,降低显存占用,实现实时生成;
    3. 扩展到 3D 生成、图像编辑等更多视觉任务。

五、总结

GenTron 作为 CVPR 2024 的代表性工作,通过 “文本条件注入 - 模型规模化 - T2V 扩展” 的技术路径,首次全面验证了 Transformer 在扩散模型中的优越性。其核心贡献不仅在于提出性能领先的图像与视频生成模型,更在于为视觉生成领域提供了一套可复用的 Transformer 扩散模型设计范式 —— 从文本编码器选择、嵌入整合方式,到模型规模化策略、T2V 时序建模,每一步均有明确的实验支撑,为后续研究提供了清晰的技术参考。

从实际应用角度,GenTron 的高文本对齐性和视觉质量,使其在创意设计、内容创作等领域具有巨大潜力;从研究角度,它打破了 U-Net 在扩散模型中的垄断地位,推动视觉生成向 “Transformer 化” 发展,为跨领域技术融合(如 NLP 的大模型能力迁移到视觉生成)奠定了基础。

http://www.dtcms.com/a/515379.html

相关文章:

  • 【RabbitMQ】简介
  • (done) 自学 MPI (4) Environment Management Routines
  • webrtc弱网-RembThrottler类源码分析及算法原理
  • 鸿蒙的声明式 UI转换为 JSView
  • 【MySQL】从零开始了解数据库开发 --- 如何理解事务隔离性
  • BugKu Web渗透之 never_give_up
  • Cangjie语言核心技术深度解析测评:迈进鸿蒙原生开发的安全新时代!
  • 长乐市住房和城乡建设局网站网站开发公司的推广费用
  • 绵阳住房和城乡建设部网站网站页面优化怎么做
  • 关于git的使用(在gitee和gitcode上部署自己的项目流程)
  • PHP 字符串操作详解
  • 3合一网站怎么做免费数据统计网站
  • 17.基础IO_3
  • Ubuntu 系统掉电导致分区损坏无法启动修复方案
  • 相机模组,模组是什么意思?
  • 申威架构ky10安装php-7.2.10.rpm详细步骤(国产麒麟系统64位)
  • STM32F407 通用定时器
  • lodash-es
  • 股票交易网站建设四会市城乡规划建设局网站
  • API技术深度解析:从基础原理到最佳实践
  • 西安今晚12点封城吗龙岩网站优化
  • 使用有限体积法求解双曲型守恒性方程(一)FV 框架
  • jenkins流水线部署springboot项目
  • YOLOv5:目标检测的实用派王者
  • 《工业之心:Blender 工业场景解构》
  • 【Linux网络】应用层自定义协议
  • unity免费改名工具-Mulligan Renamer
  • Git分支的多人协作
  • 服务外包网站成都住建局官网app
  • 【ABAP函数】+ALSM_EXCEL_TO_INTERNAL_TABLE批导长字段