(2023AAAI)T2I-Adapter:学习挖掘文本到图像扩散模型的更可控能力
一、背景
在深度学习技术迅猛发展的当下,大规模文本到图像(T2I)模型展现出了令人瞩目的生成能力。以 Stable Diffusion 为典型代表的 T2I 模型,能够学习到极为复杂的结构以及富有意义的语义。在生成图像的过程中,这些模型常常能呈现出丰富多样的纹理、清晰明确的边缘、合理有序的结构以及精准恰当的语义。这清晰地表明,T2I 模型实际上能够以一种隐式的方式,很好地捕捉从低级的纹理信息、中级的边缘信息,一直到高级的语义信息等不同层次的内容。
然而,不可忽视的是,当前 T2I 模型在实际应用过程中仍然存在一定的局限性。尽管在生成图像的质量方面有一定的表现,但其严重依赖精心设计的文本提示。仅仅依靠文本提示,无法充分挖掘模型所学到的全部知识。尤其是在需要对生成过程进行灵活且准确的控制时,比如对图像的颜色和结构进行精细调控,现有的 T2I 模型往往难以满足实际需求。对于非专业用户而言,生成的结果通常具有不可控性和不稳定性。以 Stable Diffusion 为例,在一些富有想象力的场景生成中,如生成 “带翅膀的汽车”“长着兔子耳朵的钢铁侠” 等图像时,并不能准确地生成符合描述的结果。这是因为文本提示在传达这些复杂且独特的视觉概念时,存在一定的局限性,难以将用户心中的具体形象精准地转化为模型能够理解并生成的指令。
二、动机
在图像合成过程中,文本难以对其提供精确的结构指导,这就导致在复杂场景下,模型生成的结果具有较大的随机性且不稳定。但这并非是模型本身生成能力不足,本质原因是文本无法提供足够准确的生成指导,致使难以将模型强大的内部知识与外部控制信号有效结合起来。
为解决这一问题,研究人员致力于寻找一种方法,能够 “挖掘” 出 T2I 模型隐式学习到的能力,并将这些能力显式地运用到更精细的生成控制当中。基于此动机,T2I-Adapter 应运而生。其核心目标是通过学习简单且轻量级的适配器,在冻结原始大型 T2I 模型的前提下,巧妙地将外部控制信号与模型内部知识进行对齐。这样一来,就能实现对生成结果在颜色和结构等方面的丰富控制和编辑效果,从而满足用户对于图像生成更加多样化和精准化的需求。
三、所提方法
T2I-Adapter 创新性地提出了一种在不改变预训练 T2I 模型原始网络拓扑结构和生成能力的基础上,为其提供额外指导的有效方法。通过引入轻量级的适配器模块,该模块能够深入学习外部控制信号与 T2I 模型内部知识之间的映射关系,进而实现对生成过程的精准调控。
适配器的设计具有显著的即插即用特性,在实际应用时,只需对适配器模块进行针对性训练,而无需对原始 T2I 模型的参数进行调整。这一特性大大降低了应用的复杂性和计算成本,使得 T2I-Adapter 能够更加便捷地集成到各种现有的 T2I 模型框架中。
同时,T2I-Adapter 具备强大的处理多种控制条件的能力。在结构控制方面,它能够处理草图、深度图、语义分割图、姿态图等多种类型的输入;在颜色控制方面,通过独特的空间调色板技术,能够有效地控制色调和颜色分布。更为突出的是,T2I-Adapter 还支持多条件组合,能够满足多样化的生成需求。无论是简单的单一条件生成任务,还是复杂的多条件协同生成任务,T2I-Adapter 都能展现出卓越的性能。
四、方法细节与执行步骤
4.1 模型架构
T2I-Adapter 的架构设计遵循高效且低侵入的原则,旨在为预训练的文本到图像模型增添额外的控制能力。其整体架构主要由两个关键部分构成。
首先是具有固定参数的预训练稳定扩散模型,该模型已经在大规模数据上进行了充分且深入的训练。在这个过程中,它积累了强大的图像生成基础能力,能够精准地理解文本语义,并将其转化为相应的图像特征表示。这种预训练模型就如同一个知识储备丰富的 “大脑”,为后续的图像生成工作提供了坚实的基础。
与之协同工作的是经过专门训练的多个 T2I-Adapter。这些适配器的核心任务是将外部输入的控制信号,如各种类型的条件图(草图、深度图、语义分割图、姿态图等),与预训练模型内部蕴含的丰富知识进行有效对齐。不同的适配器在实际应用中具有高度的灵活性,可以根据具体需求,通过直接添加可调权重 ω 来进行灵活组合。例如,在一个需要同时考虑图像结构和颜色控制的复杂任务中,可以将负责结构控制的适配器与负责颜色控制的适配器按照不同的权重进行组合。通过巧妙地调整权重,能够精确地控制不同适配器对最终生成效果的贡献程度,从而达到期望的生成效果。
深入到适配器的内部结构,它由四个精心设计的特征提取模块以及三个下采样块组成。当输入一张条件图,以草图为例,首先会对其执行像素反洗牌(pixel unshuffle)操作。这一操作就像是对草图进行了一次 “重新整理”,能够将高分辨率的草图下采样至 64×64 分辨率。这个特定分辨率在后续的特征提取过程中具有重要意义,它既能保证保留足够的细节信息,使得适配器能够捕捉到草图中的关键特征,又能有效降低计算复杂度,提高整个模型的运行效率。
在每个特征提取模块中,利用一个卷积层和两个残差块(RB)来对下采样后的条件图进行特征提取,从而得到条件特征 F。残差块的使用是适配器设计中的一个关键技术点,它能够有效地解决深度神经网络在训练过程中常常面临的梯度消失问题。通过引入残差块,适配器能够更好地学习到条件图中的复杂特征,提升对条件信息的提取和理解能力。
之后,关键的一步是将提取到的条件特征 Fc 与 UNet 编码器中间特征 Fenc 相加,用公式表示为 Fenci = Fenci + Fci,这里的 i ∈ {1, 2, 3, 4}代表不同尺度的中间层,C 代表条件输入。通过这种相加操作,外部条件信息得以顺利注入到 UNet 编码器中。由于 UNet 编码器在整个图像生成过程中起着关键的特征提取和变换作用,注入外部条件信息后,能够对后续的图像生成过程产生直接且有效的影响。它就如同在图像生成的 “生产线” 上引入了新的 “指令”,引导生成过程朝着符合外部条件要求的方向进行,确保最终生成的图像能够满足用户设定的各种条件。
4.2 颜色控制
在图像生成过程中,颜色的精确控制对于生成高质量且符合用户期望的图像起着至关重要的作用。T2I-Adapter 采用了一种独特且有效的方式,即使用空间调色板来实现对生成图像色调和颜色分布的精确控制。
在训练空间调色板时,其操作过程有着明确且严谨的步骤。首先,通过高双三次下采样对图像进行处理。这一操作的核心目的是去除图像中过多的语义和结构信息。因为在颜色控制任务中,这些额外的语义和结构信息可能会干扰对颜色信息的准确提取和利用,就像在一堆杂物中寻找特定物品时,过多的无关杂物会增加寻找的难度。在去除这些不必要信息的同时,高双三次下采样能够很好地保留图像中足够的颜色信息,就如同在筛选过程中,精准地留下了我们需要的关键元素。
经过下采样后的特征,会进一步进行上采样操作。通过上采样,将低分辨率的颜色特征恢复到与生成图像相匹配的分辨率尺度,形成用于控制颜色的色块特征。这些色块特征包含了图像颜色的分布和色调等关键信息,就像是一幅详细的 “颜色地图”,以此对生成图像的颜色进行粗略调控。例如,在生成一幅风景图像时,可以通过空间调色板的训练结果,调整图像中天空部分的蓝色色调,使其更符合用户对于晴朗天空的色彩预期,可能是将蓝色调整得更加湛蓝、清新;或者改变草地部分的绿色饱和度,营造出不同季节或光照条件下的草地效果,比如在春天的场景中,将绿色饱和度提高,使草地看起来更加生机勃勃;在秋天的场景中,降低绿色饱和度并调整色调,呈现出略带枯黄的草地质感。
4.3 训练策略
在 T2I-Adapter 的训练过程中,为了提高训练效率和生成效果,采用了一系列精心设计且相互配合的训练策略。
其中,非均匀时间步采样策略是一大亮点。在扩散模型的生成过程中,不同的时间步对应着不同的图像生成阶段,每个阶段都有着独特的特点和重要性。在早期阶段,图像的结构开始逐渐形成,此时增加采样概率具有极为重要的意义。因为在这个关键时期,更多地采样能够使得控制信号更有效地参与到图像结构的构建过程中。这就好比在建造房屋时,在打地基和搭建框架的初期阶段,更频繁地检查和调整施工方案,能够确保房屋结构更加稳固、符合设计要求。通过增加早期阶段的采样概率,能够提升生成图像与外部控制条件的匹配度,使最终生成的图像在结构上更加精准地符合用户设定的条件。
研究团队将DDIM的推理采样分为三个阶段(beginning, middle and late stages),通过实验得知,外部信息添加的阶段越晚,其引导效果就越弱。说明生成内容主要是在采样前期确定的,如果从后面的部分采样t,在训练过程中会忽略指导信息。为了加强adapter的训练,采用了非均匀抽样,以增加t在抽样前期下降的概率。
这里,我们利用三次函数(即 t=(1−(t/T)3)×T,t∈U(0,T) t = \left(1 - ({t}/{{T}}\right)^3) \times T, \quad t \in U(0, T) t=(1−(t/T)3)×T,t∈U(0,T) 作为 t 的分布。均匀采样与三次采样的对比如下图所示,涵盖颜色引导和键位引导。实验观察到: t 的均匀采样存在引导弱问题,在颜色控制场景中表现尤为明显;而三次采样策略可有效弥补这一缺陷。
通过三次函数来调整时间步分布,使得在早期阶段的采样频率显著增加。具体来说,在时间步的起始部分,采样概率按照三次函数的规律增大,这样在图像结构生成的初始阶段,就能更好地利用外部控制信号,引导模型生成更符合要求的结构。这种基于函数的精确调整方式,为模型训练提供了一种科学、高效的控制手段。
在损失函数的选择上,T2I-Adapter 沿用了扩散模型中经典的噪声预测损失。这种损失函数能够精准地衡量模型预测的噪声与真实噪声之间的差异。通过最小化该损失,促使模型不断优化生成过程,就像在不断修正自己的 “错误”,以生成更接近真实情况的图像。
同时,为了保持原始 T2I 模型的参数稳定性,在训练过程中仅对适配器的参数进行优化。这一做法具有重要意义,它避免了对预训练模型的过度干扰,充分利用了预训练模型已有的知识,就如同在使用一件已经精心制作好的工具时,不随意改变其核心结构,而是通过添加一些辅助配件(适配器)并对其进行调整,使工具能够适应新的任务需求。通过适配器的参数调整,使模型适应新的控制条件,实现对生成过程的精确控制,在保证模型稳定性的同时,提升了其对多样化控制条件的适应能力。
4.4 多条件组合
T2I-Adapter 强大的功能不仅体现在对单一控制条件的出色处理能力上,更体现在对多条件组合的卓越支持能力上。它能够让多个适配器同时作为生成条件,并且这种多适配器组合策略具有显著优势,即无需进行额外的训练。
具体的实现过程可以用公式Fc=∑k=1KωkFAD,k(Ck) \mathbf{F}_c = \sum_{k=1}^{K} \omega_k \mathcal{F}_{\text{AD},k}(C_k) Fc=k=1∑KωkFAD,k(Ck) 实现控制条件组合。其中,k∈ [1,K] 表示第 k 个指导,也就是第 k 个adapter的参与;ωk 是第 k 个adapter的强度权重,它起着至关重要的作用,能够根据实际需求灵活地控制每个适配器在组合中的组成强度。
例如,在一个复杂的图像生成任务中,可能既需要草图适配器来确定图像的大致结构,又需要空间调色板适配器来精确控制颜色。通过调整 ω 的值,可以决定草图适配器和空间调色板适配器对最终生成结果的影响程度。如果希望图像结构更加突出,就可以适当增大草图适配器对应的 ω 值,使草图适配器在生成过程中发挥更大的作用,引导生成的图像在结构上更加符合草图的规划;反之,如果更注重颜色效果,就增大空间调色板适配器的 ω 值,让颜色控制在生成过程中占据主导地位,使生成的图像在颜色上更加符合用户期望。
通过这种方式,T2I-Adapter 能够将不同类型的控制条件进行有机结合,实现对生成图像在结构、颜色、语义等多个维度上的全面控制,满足用户多样化、复杂的图像生成需求。无论是简单的图像风格调整,还是复杂的场景构建,T2I-Adapter 都能通过灵活的多条件组合,为用户生成高质量、符合预期的图像。
4.5 模型的泛化性
T2I-Adapter 在模型泛化性方面也展现出了出色的性能。通过精心设计的架构和训练策略,它能够在不同类型的数据集和多样化的应用场景中表现出稳定且良好的适应性。
在面对新的数据集时,T2I-Adapter 能够快速学习数据集中的特征和模式。这得益于其适配器模块对不同条件输入的高效特征提取能力。例如,当遇到新的图像风格数据集时,适配器可以从数据集中的图像中提取出独特的风格特征,并将这些特征与预训练模型的内部知识进行有效融合。通过这种方式,T2I-Adapter 能够在新的风格数据集上生成符合该风格特点的图像,而无需对整个模型进行大规模的重新训练。
在多样化的应用场景中,T2I-Adapter 同样表现出色。无论是用于艺术创作领域,帮助艺术家快速将创意转化为具体的图像作品;还是在工业设计中,辅助设计师进行产品外观的创意设计;亦或是在虚拟现实场景构建中,为虚拟环境提供丰富多样的视觉元素,T2I-Adapter 都能凭借其良好的泛化性,根据不同场景的需求,灵活地利用各种控制条件生成高质量的图像。这种强大的泛化能力使得 T2I-Adapter 在图像生成领域具有广泛的应用前景和实际价值。
4.6 与其他模型的兼容性
T2I-Adapter 具有良好的与其他模型的兼容性。一旦T2I-Adapter被训练完,它能够与多种主流的文本到图像模型进行无缝集成,如SD-V1.4、SD-V1.5或其他自定义的模型,进一步拓展了其应用范围和功能。
以与 Stable Diffusion 模型的结合为例,T2I-Adapter 能够在不影响 Stable Diffusion 原有生成能力的基础上,为其增添丰富的控制功能。通过简单地将 T2I-Adapter 模块接入 Stable Diffusion 的网络结构中,就能实现对生成过程在颜色、结构等方面的精细控制。这种兼容性使得用户可以在熟悉的 Stable Diffusion 模型框架下,利用 T2I-Adapter 的优势,生成更加符合自己需求的图像。
此外,T2I-Adapter 还能够与其他一些基于扩散模型的变体模型进行兼容。例如,与一些针对特定领域进行优化的模型相结合时,T2I-Adapter 可以为这些模型引入新的控制条件,使其在特定领域的应用中表现更加出色。在医学图像生成领域,将 T2I-Adapter 与专门用于医学图像生成的模型相结合,可以通过引入医学图像的特定控制条件,如病灶的位置、形状等信息,生成更加真实、准确的医学模拟图像,为医学研究和诊断提供有力的支持。这种广泛的兼容性使得 T2I-Adapter 成为了图像生成领域中一个极具通用性和扩展性的工具。
五、效果
5.1 生成质量
在单条件控制任务中,如使用草图、深度图等作为控制条件时,T2I-Adapter 生成图像的结构保真度表现优异。与 Textual Inversion 方法相比,T2I-Adapter 能够更有效地利用外部控制信号,准确地生成符合结构要求的图像。在对草图的结构还原和深度图的语义理解并转化为图像方面,T2I-Adapter 生成的图像能够更精准地体现出控制条件中的关键结构信息,线条更加流畅,物体的形状和布局更加符合预期。
与 ControlNet 方法相比,T2I-Adapter 在结构保真度上与之相当。这充分证明了 T2I-Adapter 在单条件控制下对图像结构生成的强大能力,能够满足用户对于图像结构准确性的高要求。
在多条件组合控制方面,例如 “草图 + 颜色” 的组合控制下,T2I-Adapter 的生成结果令人瞩目。它能够同时满足结构和色彩的要求,且组合效果稳定。生成的图像不仅在结构上与草图高度一致,各个物体的形状、位置关系准确无误,而且在颜色方面,能够根据空间调色板等颜色控制条件,呈现出丰富、协调且符合用户期望的色彩效果。无论是色彩的搭配、色调的调整还是颜色的分布,都能恰到好处地融入到图像的整体结构中,生成更加符合用户多样化需求的高质量图像。这种在多条件复杂控制场景下的出色表现,使得 T2I-Adapter 在实际应用中具有极大的优势,能够满足用户在各种创意和设计场景中的复杂需求。
5.2 效率对比
从训练成本来看,T2I-Adapter 展现出了显著的优势。在仅使用 4 块 V100 GPU 的情况下,T2I-Adapter 训练 3 天即可完成。与全参数微调的方法相比,大大降低了训练所需的计算资源和时间成本。全参数微调往往需要大量的计算资源和漫长的训练时间,不仅对硬件设备要求极高,而且在时间成本上也给研究人员和开发者带来了较大的负担。而 T2I-Adapter 通过其轻量级的适配器设计和高效的训练策略,有效地避免了这些问题,使得模型的训练过程更加便捷、高效。T2I-Adapter有base、small和tiny版本,它们都有着良好的生成质量和控制能力。
在推理速度方面,T2I-Adapter 同样表现出色。它仅需在扩散过程中运行一次,而 ControlNet 需要在每一步迭代中都进行计算。这使得 T2I-Adapter 的推理速度有显著提升。在实际应用中,尤其是对实时性要求较高的场景中,如在线图像生成服务、虚拟现实中的实时场景渲染等,T2I-Adapter 能够快速响应用户的请求,生成高质量的图像。这种快速的推理速度不仅提升了用户体验,还为 T2I-Adapter 在更多对实时性要求严格的领域中的应用提供了可能。