【T2I】Discriminative Probing and Tuning for Text-to-Image Generation
paper:CVPR 2024 2403
https://arxiv.org/abs/2403.04321
code:
https://github.com/LgQu/DPT-T2I
Abstract
尽管文本到图像生成(T2I)取得了进展,但先前的方法往往面临文本 -图像对齐问题,例如生成图像中的关系混淆。现有的解决方案包括进行交叉注意力操作以实现更好的组合理解,或集成大语言模型以改进布局规划。然而,T2I模型固有的对齐能力仍然不足。通过回顾生成式建模与判别式建模之间的联系,我们认为 T2I模型的判别能力可能反映了其在生成过程中的文本 -图像对齐能力。有鉴于此,我们主张增强 T2I模型的判别能力,以在生成过程中实现更精确的文本到图像对齐。我们提出了一种基于 T2I模型构建的判别式适配器,用于在两个具有代表性的任务上探究其判别能力,并利用判别式微调来改进其文本 -图像对齐。作为判别式适配器的一个额外优势,自校正机制可以在推理过程中利用判别梯度,使生成的图像更好地与文本提示对齐。在三个基准数据集上进行的全面评估(包括分布内和分布外场景)证明了我们的方法具有卓越的生成性能。同时,与其他生成模型相比,它在两个判别任务上达到了最先进的判别性能。
Introduction
文本到图像生成(T2I)旨在根据给定的自由形式文本提示合成高质量且语义相关的图像。近年来,扩散模型的快速发展激发了内容生成领域的研究热情,使文本到图像生成取得了重大飞跃。然而,由于组合推理能力较弱,当前的文本到图像生成模型仍然存在文本 -图像对齐问题,例如属性绑定、计数错误和关系混淆(见图1),尤其是在复杂的多对象生成场景中。
图1.(a)文本 -图像不对齐问题的示例,以及(b)我们通过增强文本到图像(T2I)模型的判别能力来提升生成能力的动机。我们列出了 StableDiffusion v2.1 [50] 在属性绑定、计数错误和关系混淆方面产生的三个错误生成结果。
在提升文本到图像(T2I)模型的文本 -图像对齐方面,有两条研究路线取得了显著进展。第一条路线提出在语言结构引导下对跨模态注意力激活进行干预,或进行测试时优化。 然而,这些方法严重依赖于操纵注意力结构的归纳偏差,通常需要具备视觉 -语言交互方面的专业知识。这种专业知识不易掌握,且缺乏灵活性。相比之下,另一条研究路线借鉴大语言模型(LLM)的语言理解和组合能力进行布局规划,然后结合布局到图像的模型(如GLIGEN)进行可控生成。虽然这些方法缓解了计数错误等对齐问题,但它们严重依赖中间状态(如边界框)来表示布局。中间状态可能无法充分捕捉细粒度的视觉属性,并且在这种两阶段范式中还可能累积误差。此外,T2I模型固有的组合推理能力仍然不足。
为了解决这些问题,我们旨在通过直接激发文生图(T2I)模型的内在组合推理能力来促进文本 -图像对齐,而不依赖于注意力操作或中间状态的归纳偏置。理查德·费曼(Richard Feynman)有句名言:“我无法创造的,我就无法理解。”这句话强调了理解在创造过程中的重要性。这促使我们考虑增强T2I模型的理解能力,以促进其文生图的生成。如图1所示,如果T2I模型能够区分文本提示与两幅语义略有差异的图像之间的对齐差异,那么它们更有可能生成语义正确的图像。
有鉴于此,我们提议通过两项判别任务来检验文生图(T2I)模型的理解能力。首先,我们在图文匹配(ITM)[18,43]任务上探究T2I模型的判别式全局匹配能力,这是一项用于评估基础图文对齐的代表性任务。第二项判别任务考察T2I模型的局部定位能力。指代表达理解(REC)[68]就是一项代表性任务,它检验图像内的细粒度表达 - 对象对齐情况。基于这两项任务,我们旨在:1)探究T2I模型的判别能力,尤其是组合语义对齐能力;2)进一步提升它们的判别能力,以实现更好的文生图效果。
为此,我们提出了一种判别式探测与调优(DPT)范式,通过两阶段过程来检验和改进文本到图像(T2I)模型的文本 -图像对齐。DPT纳入了一个判别式适配器,基于 T2I模型的语义表征 [29]执行图像 -文本匹配(ITM)和指代表达理解(REC)任务,以探测判别能力。例如,DPT可以将扩散模型 [50] 的 U-Net特征图作为语义表征。在第二阶段,DPT 通过参数高效微调(如 LoRA [24])进一步改善文本 -图像对齐。除了适配器之外,DPT还对基础 T2I模型进行微调,以增强其在判别和生成任务中的内在组合推理能力。作为扩展,我们提出了一种自我修正机制,利用判别式适配器基于梯度的引导信号来引导 T2I模型实现更好的对齐。我们在三个面向对齐的文本到图像生成基准和四个 ITM及 REC基准上,在分布内和分布外设置下进行了广泛实验,验证了 DPT 在增强 T2I模型的生成和判别能力方面的有效性。
这项工作的主要贡献有三个方面:
- 我们回顾了生成式建模和判别式建模之间的关系,并提出了一种简单而有效的范式 DPT,用于探测和改进 T2I模型的基本判别能力,以实现更好的文本到图像生成。
- 我们提出了一个判别式适配器,以在 DPT中实现高效的探测和调优。此外,我们为 T2I模型扩展了一种由判别式适配器引导的自我修正机制,用于面向对齐的生成。
- 我们在三个文本到图像生成数据集和四个判别式数据集上进行了广泛实验,显著增强了代表性 T2I模型的生成和判别能力。
Related Work
Text-to-Image Generation. ** 在过去的几十年里,人们在变分自编码器、生成对抗网络和自回归模型方面付出了巨大努力,致力于在文本条件下生成高质量图像。最近,由于扩散概率模型(DMs)的稳定性和可扩展性,人们对其产生了浓厚的兴趣。为了进一步提高生成质量,像DALL·E2、Imagen和GLIDE等大规模模型应运而生,用于合成逼真的图像。这项工作主要聚焦于扩散模型,尤其以开源的Stable Diffusion(SD)作为基础模型。
Improving Text-Image Alignment. 尽管取得了令人振奋的成功,但当前的文生图(T2I)模型仍然存在图文不一致的问题,尤其是在需要组合推理的复杂场景中。为了引导干预稳定扩散(SD)模型的内部特征以促进高一致性生成,人们已经做出了一些开创性的努力。例如,结构扩散(StructureDiffusion)将提示解析为树结构,并将其与交叉注意力表示相结合,以促进组合生成。“关注并激发”(Attend-and-Excite)方法操纵交叉注意力单元,使其关注所有文本主体标记,并增强注意力图中的激活。尽管取得了显著进展,但它们在处理包括物体缺失和属性错误等问题时存在局限性,并且忽略了关系增强。另一类工作,如LayoutLLMT2I和LayoutGPT**,采用了两阶段的粗到精框架,即先生成基于边界框的显式中间布局,然后合成图像。然而,这种中间布局可能不足以表示复杂场景,并且它们几乎放弃了预训练T2I模型的内在推理能力。在这项工作中,我们提出了一种判别式调优范式,通过激发预训练T2I模型的判别能力来实现高一致性生成。
**Generative and Discriminative Modeling. ** 大语言模型(LLMs)的惊人进展使生成式模型能够完成判别式任务,这促使研究人员利用基础视觉生成模型在图像分类、分割和图文匹配等任务中挖掘理解能力。此外,DreamLLM统一了多模态自回归框架中的生成和判别,并揭示了潜在的协同效应。相反,近期的一项工作探讨了生成式人工智能悖论,并表明大语言模型可能实际上并不理解它们所生成的内容。据我们所知,我们是首个研究判别式微调以促进文生图(T2I)对齐的团队。
Method
在本节中,我们引入 DPT范式来探测并增强基础文生图(T2I)模型的判别能力。如图2所示,DPT由两个阶段组成,即判别探测和判别调优,以及3.3节中的自校正机制。
图2.所提出的判别式探测与调优(DPT)框架的示意图。我们首先从冻结的Stable Diffusion(SD)模型中提取语义表示,然后提出一个判别式适配器来进行判别式探测,以研究SD的全局匹配和局部定位能力。随后,我们通过引入LoRA参数进行参数高效的判别式调优。在推理过程中,我们提出自校正机制来指导基于去噪的文本到图像生成。
Stage 1 – Discriminative Probing
在第一阶段,我们旨在开发一种探测方法,以探究“近期的文本到图像(T2I)模型的判别能力有多强?”为此,我们首先选择有代表性的T2I模型和语义表示,然后考虑让T2I模型适应判别任务。
Stable Diffusion for Discriminative Probing. 考虑到StableDiffusion(SD)是开源的,并且是最强大、最受欢迎的文生图(T2I)模型之一,我们选择其不同版本(见第4.2节)作为代表性模型来探究其判别能力。为了使生成式扩散模型在语义上更具针对性且高效,SD [50] 在潜在低维空间中进行去噪操作。它包括变分自编码器(VAE)[27]、CLIP的文本编码器 [45] 和U-Net [51]。U-Net作为潜在空间中去噪分数匹配的神经网络主干,由三部分组成,即下采样块、中间块和上采样块。在训练过程中,给定一个正样本图像 -文本对 (x,y)(x, y)(x,y),SD首先使用 VAE编码器对图像 xxx进行编码,并添加噪声 ϵ∼N(0,1)\epsilon \sim \mathcal{N}(0,1)ϵ∼N(0,1),以获得时间步 ttt时的潜在变量 zt=h(x,t)z_t = h(x, t)zt=h(x,t)。此后,SD 使用 U-Net来预测所添加的噪声,并通过最小化真实噪声与预测噪声之间的 L2L_2L2损失来优化模型参数。
Semantic Representations. 利用诸如StableDiffusion(SD)这样的文生图(T2I)模型来执行判别任务并非易事。幸运的是,近期的研究表明,尽管扩散模型最初是为去噪或分数估计而设计的,但它们具有有意义的语义潜在空间。此外,一系列开创性的工作表明,从SD的U-Net中提取的表征对于判别任务是有效的,甚至具有优越性。受这些研究的启发,我们考虑通过一个判别适配器,利用SD的U-Net中的语义表征来执行判别任务。
Discriminative Adapter. 我们提出了一种轻量级判别适配器,它依赖于稳定扩散(SD)的语义表示来处理判别任务。受DETR [3]的启发,我们使用Transformer [58]结构实现了判别适配器,包括一个Transformer编码器和一个Transformer解码器。此外,我们采用固定数量的随机初始化且可学习的查询,以使该框架适应特定的判别任务。具体来说,给定采样时间步 ttt处的噪声隐变量 ztz_tzt 和提示 yyy,我们首先将它们输入到U-Net中,并从其中一个中间块中提取一个二维特征图 Ft∈Rh×w×dF_t \in \mathbb{R}^{h\times w\times d}Ft∈Rh×w×d,其中 hhh、www 和 ddd分别表示高度、宽度和维度。形式上,我们通过以下公式提取 FtF_tFt:
Ft=UNetl(zt,CLIP(y),t)F_t = \text{UNet}_l(z_t, \text{CLIP}(y), t)Ft=UNetl(zt,CLIP(y),t)
其中,UNetl\text{UNet}_lUNetl指的是在U-Net的第 lll个块中提取特征图的操作。随后,我们通过加法融合将 FtF_tFt与可学习的位置嵌入 [12] 和时间步 ttt 的嵌入 [50]相结合,然后将其展平为语义表示 F~t∈Rhw×d\tilde{F}_t \in \mathbb{R}^{hw\times d}F~t∈Rhw×d。为简单起见,我们在接下来的内容中将省略下标 ttt。
为了探究判别能力,我们将 F~\tilde{F}F~输入到 Transformer编码器 Enc(⋅)\text{Enc}(\cdot)Enc(⋅)中,然后在 Transformer解码器 Dec(⋅,⋅)\text{Dec}(\cdot, \cdot)Dec(⋅,⋅)中使编码器的输出与一些可学习的查询 Q={q1,…,qN}Q = \{q_1, \dots, q_N\}Q={q1,…,qN}(其中 qi∈Rdq_i \in \mathbb{R}^dqi∈Rd)进行交互。整个过程可表示为
Q∗=f(F~;Wa,Q)=Dec(Enc(F~),Q)Q^* = f(\tilde{F}; W_a, Q) = \text{Dec}(\text{Enc}(\tilde{F}), Q)Q∗=f(F~;Wa,Q)=Dec(Enc(F~),Q)其中 f(⋅)f(\cdot)f(⋅)抽象为具有参数 WaW_aWa 和 QQQ 的判别适配器。WaW_aWa包括编码器和解码器中的参数。查询 QQQ充当视觉表征和下游判别任务之间的桥梁,它通过解码器的交叉注意力机制 [58]关注编码后的语义表征 F~t\tilde{F}_tF~t,以用于下游任务。由于 QQQ中有多个查询,查询表征 Q∗Q^*Q∗能够捕捉语义表征 F~\tilde{F}F~ 的多个方面。此后,Q∗Q^*Q∗可用于执行各种下游任务,可能会搭配一个分类器或回归器。接下来,我们将介绍两个探究任务,即图像 -文本匹配(ITM)和指代表征(REC),并在这两个任务上训练判别适配器,以分别研究文本到图像(T2I)模型的全局匹配能力和局部定位能力。查询表征 Q∗Q^*Q∗能够捕捉语义表征 F~\tilde{F}F~ 的多个方面。此后,Q∗Q^*Q∗可用于执行各种下游任务,可能会搭配一个分类器或回归器。
接下来,我们将介绍两个探究任务,即图像 -文本匹配(ITM)和指代表征(REC),并在这两个任务上训练判别适配器,以分别研究文本到图像(T2I)模型的全局匹配能力和局部定位能力。
Global Matching. 从判别式建模的角度来看,一个具有强大图文对齐能力的模型应该能够识别各种图像与文本提示之间细微的对齐差异。鉴于此,我们利用图文匹配任务 [18]来探究判别式全局匹配能力。该任务旨在实现双向匹配或检索,包括文本到图像(T → I)和图像到文本(I → T)。
为实现这一目标,我们首先从 Q∗Q^*Q∗中收集前 MMM(M<NM < NM<N)个查询表示 {q1∗,...,qM∗}\{q^*_1, ..., q^*_M\}{q1∗,...,qM∗},然后将它们分别投影到一个与 CLIP维度相同的匹配空间中,得到 hi=g(qi∗;Wm)h_i = g(q^*_i ;W_m)hi=g(qi∗;Wm)。直观地说,不同的查询表示可能会从不同方面来理解同一图像。受此启发,我们通过比较 yyy 的 CLIP文本嵌入与最匹配的投影查询表示,计算 xxx 和 yyy之间的跨模态语义相似度,即 s(y,z)=maxi∈{1,...,M}cos(CLIP(y),hi)s(y, z) = \max_{i\in\{1,...,M\}} \cos(\text{CLIP}(y), h_i)s(y,z)=maxi∈{1,...,M}cos(CLIP(y),hi)。基于成对相似度,我们使用对比学习损失
Lmatch=LT→I+LI→TL_{\text{match}} = L_{T\rightarrow I} + L_{I\rightarrow T}Lmatch=LT→I+LI→T
来优化判别式适配器 f(⋅;Wa,Q)f(\cdot;W_a,Q)f(⋅;Wa,Q) 和投影层 g(⋅;Wm)g(\cdot;W_m)g(⋅;Wm)。第一项用于优化模型,使其能够从一批样本中区分出与给定文本匹配的正确图像,即
LT→I=−logexp(s(z,y)/τ)∑j=1Bexp(s(zj,y)/τ)L_{T\rightarrow I} = -\log\frac{\exp(s(z, y)/\tau)}{\sum_{j=1}^{B} \exp(s(z_j, y)/\tau)}LT→I=−log∑j=1Bexp(s(zj,y)/τ)exp(s(z,y)/τ)
其中,BBB表示小批量大小,τ\tauτ是一个可学习的温度因子。类似地,从图像到文本的反向计算为
LI→T=−logexp(s(z,y)/τ)∑j=1Bexp(s(z,yj)/τ)L_{I\rightarrow T} = -\log\frac{\exp(s(z, y)/\tau)}{\sum_{j=1}^{B} \exp(s(z, y_j)/\tau)}LI→T=−log∑j=1Bexp(s(z,yj)/τ)exp(s(z,y)/τ)
以 LmatchL_{\text{match}}Lmatch作为优化目标,判别式适配器和投影层会从语义表示中挖掘用于匹配的判别性信息,这体现了文本到图像(T2I)模型的全局匹配能力。
Local Grounding. 局部定位要求模型根据部分描述性文本从图像中的其他对象中识别出所指对象。我们将稳定扩散模型(SD)应用于指称表达理解(REC)[68]任务,以评估其判别性局部定位能力。
形式上,给定一个文本表达式 y′y'y′,其指向图像 xxx中索引为 iii 的特定对象,REC 的目标是预测该真实对象的坐标和大小,即边界框 bib_ibi。为实现这一目标,我们共享相同的判别式适配器,并将其他 (N−M)(N - M)(N−M)个可学习查询用作对象先验查询,从变压器解码器中获取相应的查询表示,记为 {qj∗}j∈{M+1,…,N}\{q^*_j\}_{j\in\{M +1,\ldots,N\}}{qj∗}j∈{M+1,…,N}。然后,我们通过三个不同的投影层 g(⋅)g(\cdot)g(⋅)分别将每个 qj∗q^*_jqj∗投影到三个空间:将其投影到定位空间以获得预测正确对象的概率,即 pj=g(qj∗;Wp)∈R1p_j = g(q^*_j; W_p) \in \mathbb{R}^1pj=g(qj∗;Wp)∈R1;投影到边界框空间以估计边界框参数,即 b^j=g(qj∗;Wb)∈R4\hat{b}_j = g(q^*_j; W_b) \in \mathbb{R}^4b^j=g(qj∗;Wb)∈R4;投影到语义空间以弥合查询和文本之间的语义差距,即 oj=g(qj∗;Ws)∈Rdo_j = g(q^*_j; W_s) \in \mathbb{R}^doj=g(qj∗;Ws)∈Rd。
投影后,我们进行最大匹配以找到索引为 ψ(i)\psi(i)ψ(i) 的最匹配查询。用于匹配的代价包括使用预测框与真实框之间的定位概率、L1L_1L1 和广义交并比(GIoU)[49]损失作为代价。其公式表示为:
ψ(i)=arg minj∈{M+1,…,N}−pj+L1(b^j,bi)+GIoU(b^j,bi)\psi(i) = \argmin_{j\in\{M +1, \ldots, N\}} -p_j + L_1(\hat{b}_j, b_i) + \text{GIoU}(\hat{b}_j, b_i)ψ(i)=j∈{M+1,…,N}argmin−pj+L1(b^j,bi)+GIoU(b^j,bi)
此外,我们采用文本到对象的对比损失,以进一步促使模型在语义层面将正对象与其他对象区分开来:
LT→O=−logexp(cos(oψ(i),CLIP(y′))/τ)∑j=1Kxexp(cos(oj,CLIP(y′))/τ)L^{T\rightarrow O} = -\log\frac{\exp(\cos(o_{\psi(i)}, \text{CLIP}(y')) / \tau)}{\sum_{j =1}^{K_x} \exp(\cos(o_j, \text{CLIP}(y')) / \tau)}LT→O=−log∑j=1Kxexp(cos(oj,CLIP(y′))/τ)exp(cos(oψ(i),CLIP(y′))/τ)
我们将所有损失组合起来,得到定位损失为:
Lground=−λ0pψ(i)+λ1L1(b^ψ(i),bi)+λ2GIoU(b^ψ(i),bi)+λ3LT→OL_{\text{ground}} = -\lambda_0 p_{\psi(i)} + \lambda_1 L_1(\hat{b}_{\psi(i)}, b_i) + \lambda_2 \text{GIoU}(\hat{b}_{\psi(i)}, b_i) + \lambda_3 L^{T\rightarrow O}Lground=−λ0pψ(i)+λ1L1(b^ψ(i),bi)+λ2GIoU(b^ψ(i),bi)+λ3LT→O
其中,{λk}k∈{0,1,2,3}\{\lambda_k\}_{k\in\{0,1,2,3\}}{λk}k∈{0,1,2,3}作为权衡因子。最后,我们使用以下针对两个任务的损失函数来优化整个模型的参数,包括 QQQ 和 {Wi}\{W_i\}{Wi},i∈{a,p,b,s}i \in \{a, p, b, s\}i∈{a,p,b,s}:
L=Ex,ϵ∼N(0,1),t(Lmatcht+Lgroundt)\mathcal{L} = \mathbb{E}_{x, \epsilon\sim\mathcal{N}(0,1), t}(\mathcal{L}_{\text{match}}^t + \mathcal{L}_{\text{ground}}^t)L=Ex,ϵ∼N(0,1),t(Lmatcht+Lgroundt)
探测过程包括在两个判别任务上进行训练和推理。在训练过程中,我们冻结稳定扩散模型(SD)的所有参数,并通过优化判别适配器和几个投影层,采用其语义表示进行匹配和定位。在推理过程中,我们获得两个判别任务的测试性能,这反映了稳定扩散模型(SD)的判别能力。
Stage 2 – Discriminative Tuning
在第二阶段,我们提议通过以判别式调优的方式优化文本到图像(T2I)模型来提升其生成能力,尤其是文本 -图像对齐能力。大多数先前的工作[2,63] 仅将StableDiffusion(SD)视为用于分割任务的固定特征提取器,因为它具有细粒度的语义表示能力,但忽略了判别信息向生成过程反向反馈的潜力。此外,尽管最近的一项研究[28,62]使用判别式目标对SD模型进行微调,但它仅关注特定的下游任务(如图像文本匹配,ITM),而忽略了调优对生成的影响。判别能力的提升可能会牺牲原有的生成能力。在这个阶段,我们主要专注于增强生成能力,但也会在优先保障生成能力的前提下探索判别能力的上限。这可能为充分发挥视觉生成基础模型的通用性带来新的启示。为此,我们努力解答“如何通过判别式调优增强T2I模型的文本 -图像对齐能力?”
在上一阶段,我们冻结了SD模型,并探究了中间激活在全局匹配和局部定位中的信息价值。在这里,**我们使用低秩自适应(LoRA)[24]进行参数高效微调,具体做法是在交叉注意力层上注入可训练层,并冻结预训练SD模型的参数。**我们使用与第一阶段相同的判别式目标函数来调优LoRA、判别式适配器和特定任务投影层。由于LoRA的参与,我们可以灵活地操控T2I模型的中间激活。
Self-Correction
为文本到图像(T2I)模型配备判别式适配器后,整个模型便能够执行判别任务。作为使用判别式适配器的额外收获,我们提出了一种自校正机制,用于在推理过程中引导高度对齐的生成。形式上,我们通过梯度更新潜在变量 ztz_tzt,以增强 ztz_tzt与提示 yyy之间的语义相似性:
z^t=zt+η∂s(zt,y)∂zt\hat{z}_t = z_t + \eta \frac{\partial s(z_t, y)}{\partial z_t}z^t=zt+η∂zt∂s(zt,y)
其中,引导因子 η\etaη控制引导强度。∂s(zt,y)∂zt\frac{\partial s(z_t,y)}{\partial z_t}∂zt∂s(zt,y)表示从判别式适配器到潜在变量 ztz_tzt 的梯度。随后,我们将 z^t\hat{z}_tz^t输入到 U-Net中预测噪声,然后得到用于生成的 zt−1z_{t -1}zt−1。
Experiments
我们进行了广泛的实验,以评估DPT的生成和判别性能,验证其有效性,并进行深入分析。
Experimental Settings
Benchmarks 在训练过程中,我们采用 MSCOCO 的训练集进行图像文本匹配(ITM),并使用三个常用数据集,即 RefCOCO、RefCOCO+ 和 RefCOCOg进行指代表达理解(REC)。为了评估文本 -图像对齐效果,我们使用了五个基准数据集:COCO - NSS、CC -500、ABC、TIFA 和 T2I - CompBench。根据训练集和测试集之间文本提示的分布差异,我们采用了三种设置,即在 COCO - NSS 和 CC -500上分别采用同分布(ID)和异分布(OOD)设置,在 ABC、TIFA 和 T2I - CompBench上采用混合分布(MD)设置。更多详细信息请见附录 B.1。
Evaluation Metrics. 遵循现有的基线研究 [4,16,44],我们采用 CLIP分数 [21] 和 BLIP分数(包括 BLIP-ITM 和 BLIP-ITC),以及基于目标检测的 GLIP分数 [16]来评估文本 -图像对齐情况,并使用 IS [53] 和 FID [22]作为质量评估指标。对于 TIFA 和 T2I-CompBench,我们遵循推荐的 VQA准确率或专门制定的协议。
Performance Comparison
Text-to-Image Generation. 如表1 和表2所示,我们有以下观察和讨论:与基础模型(即 SD [50])相比,所提出的 DPT方法显著提高了文本 -图像对齐度,这表明增强判别能力有助于文本到图像(T2I)模型的生成语义对齐。DPT 在 OOD设定下的 CC -500 和 ABC -6K数据集上表现卓越,显示出其对其他提示分布具有强大的泛化能力。这也揭示了在通过判别任务调整 T2I模型时,它能够抵御过拟合风险。在 SD - v1.4 和 SD - v2.1上的持续改进表明,所提出的 DPT可能与基于分数匹配的生成式预训练并行,反映了使用 DPT激活 T2I模型内在推理能力的可能性。总体而言,所提出的方法在综合基准测试、分布设置和评估协议中,在文本 -图像对齐方面始终实现了最佳的生成性能。此外,对齐度的提高并未导致根据 IS 和 FID衡量的图像质量下降。这些结果证实了所提出的 DPT范式的有效性。
表1. 在 COCO - NSS1K、CC -500 和 ABC -6K数据集上进行文本到图像生成的性能比较。ID、OOD 和 MD分别指分布内、分布外和混合分布设置。根据 Stable Diffusion 的版本,我们将方法分为两组,上方为 v1.4版本,下方为 v2.1版本。SC表示自我修正。
**Discriminative Matching and Grounding. ** 在3.1节中,我们在文生图(T2I)模型之上集成了一个判别式适配器,并基于图像文本匹配(ITM)和指称表达理解(REC)任务来探究并提升其理解能力。从实证角度而言,我们进行了相关实验,第一阶段训练适配器,第二阶段使用ITM和REC数据引入低秩自适应(LoRA)进行微调,然后评估匹配和定位性能。我们在表11中展示了包括判别式模型和生成式模型在内的基线模型在零样本和微调设置下的实验结果。有关实现和设置的更多细节,请参阅附录B。从该表中我们可以观察到,在ITM和REC任务上,我们的方法能够大幅超越现有的最先进生成式方法,如Diffusion Classifier [31]和DiffusionITM [28]。即使在第一阶段的探究阶段,或者在第二阶段优先选择生成时,我们的方法也能取得有竞争力的性能。这些结果表明,从U-Net中间层提取的生成式表示蕴含着有意义的语义,证实了文生图模型具备基本的判别式匹配和定位能力。此外,这也表明3.2节中引入的判别式微调能够进一步提升这些能力。
In-depth Analysis
为了验证DPT中每个组件的有效性,包括第二阶段在全局匹配(GM)和局部定位(LG)上的判别式调优,以及推理过程中的自校正(SC),我们在ID和OOD设置下的COCO - NSS1K和CC -500数据集上进行了多项分析实验。结果总结在表4中。
Effectiveness of Discriminative Tuning. 从表4中不同变体的对比结果可以看出,根据CLIP和BLIP得分,GM和LG这两个调优目标能够持续提升文本到图像(T2I)的对齐性能。这验证了在图像文本匹配(ITM)和指代表达理解(REC)任务上进行判别式调优的有效性。与GM相比,LG在语义和目标检测指标上取得了更显著的提升。这可能归因于基于部分描述对局部概念进行预测所带来的增强的定位能力。此外,结合这两个目标进行多任务学习可能会在分布外(OOD)设置下使BLIP得分略有提高,但其他指标会稍有下降。这一现象表明,在模型优化过程中可能存在一些矛盾,反映出统一多个任务仍然具有挑战性。
Effectiveness of Self-Correction. 在3.3节中,我们建议在推理阶段通过引导迭代去噪来复用判别式适配器。比较表4中的变体,可以看出自校正方案能够持续改善文本到图像(T2I)的对齐效果,证明了其有效性。
Impact of Probed U-Net Block 由于稳定扩散(SD)中 U型网络(U-Net)的层级结构,我们可以从其不同模块中提取多级特征图。先前的工作 [62]表明,不同模块在图像分类中可能具有不同的判别能力。为了进一步研究各个模块所赋予的匹配和定位能力,以及判别能力与生成能力之间的权衡,我们从左到右对图2中所示的 U型网络连续七个模块进行探测,然后基于探测到的模块对整个模型进行微调。生成和判别结果如图3所示。可以观察到,随着被探测模块从底部向上移动,文生图(T2I)性能持续提升。原因可能是在反向传播过程中会引入更多的低秩自适应(LoRA)参数,并且会对更多层进行微调。相反,无论匹配和定位能力的判别性能先上升后下降。这可能归因于两点:1)来自那些接近最终输出(即预测噪声)的模块(例如 up2 和 up3)的特征图语义信息较少;2)从这些特征图展平得到的特征序列可能过长,使得判别适配器难以进行探测。
图3. 通过探测 StableDiffusion v2.1中 U-Net 的不同层并使其适应图像文本匹配(ITM)和图像重建(REC)任务所得到的生成式和判别式结果。我们报告了在 COCO-NSS1K 和 CC-500数据集上的平均 CLIP 和 BLIP-M分数、在 MSCOCO-HN数据集上的整体匹配性能,以及在 RefCOCO、RefCOCO+ 和 RefCOCOg所有测试集上的平均指称表达定位性能。我们基于 COCO-NSS1K验证集上的文本到图像(T2I)性能进行模型选择。
Impact of Tuning Step 为了进一步探究判别式调优对性能两个方面的持续影响,我们在图4a中展示了第二阶段调优步数增加时性能的动态变化。我们可以看到,生成性能随着调优而提升,并且在8k步时似乎达到了饱和点。相比之下,定位性能仍有提升空间,而匹配性能在调优阶段似乎保持稳定。
Impact of Self-Correction Factor. 如图4b所示,我们研究了公式 (9)中引导因子 η\etaη对文图生成(T2I)对齐性能的影响。结果表明,所提出的自校正机制能够在引导因子的合适范围内(即 (0.05,1))缓解文图不对齐的问题。
图4. (a)生成和判别性能随调优进程的变化以及 (b)自校正强度对 CC -500上文本到图像(T2I)性能的影响。
Qualitative Results
为了直观地展示 DPT 和 SC 在对齐方面取得的改进,我们展示了从 COCO - NSS1K中选取的用于物体外观、计数、关系和组合推理评估的提示所生成的示例,如图5所示。这些案例证明了将判别式探测和调优融入文本到图像(T2I)模型中的有效性。
Conclusion and Future Work
在这项工作中,我们解决了文本到图像生成模型的文本 -图像对齐问题。为此,我们回顾了生成式建模和判别式建模之间的关系,并提出了一种名为 DPT 的两阶段方法。该方法在第一阶段引入了一个判别式适配器来探测基本的判别能力,在第二阶段进行判别式微调。DPT 在五个文本到图像(T2I)数据集以及四个图像文本匹配(ITM)和图像描述识别(REC)数据集上展现出了有效性和泛化能力。
未来,我们计划利用更多的概念和理解任务,探索判别式探测和微调对更多生成式模型的影响。此外,探讨判别式建模和生成式建模之间更复杂的关系,例如不同任务间的权衡和相互促进,也是很有趣的。
Summary
1. 论文的研究目标、实际问题与问题新颖性
研究目标
这篇论文的核心研究目标是发掘并增强现有大规模文本到图像(Text-to-Image, T2I)生成模型(如Stable Diffusion, SD)中潜在的、但未被充分利用的判别能力 (Discriminative Abilities)。这里的判别能力,具体指模型对文本和图像内容之间细粒度对应关系的理解能力,例如:
- 图文匹配 (Image-Text Matching, ITM): 判断一幅图像与一段描述性文本是否匹配。
- 局部定位/指代表达理解 (Local Grounding/Referring Expression Comprehension, REC): 在图像中定位出文本短语所描述的特定物体或区域。
想要解决的实际问题
论文旨在解决T2I模型在实际应用中普遍存在的一个顽疾:生成图像的忠实度 (Faithfulness) 和组合性 (Compositionality) 不足。具体表现为:
- 属性错乱 (Attribute Misbinding): “a red cube on a blue sphere”(一个在蓝色球体上的红色立方体),模型可能生成“一个在红色球体上的蓝色立方体”。
- 对象数量错误 (Object Count Error): “three dogs playing in a field”(三只狗在田野里玩耍),模型可能只生成两只或四只狗。
- 空间关系错误 (Spatial Relationship Error): “a cat to the left of a dog”(一只在狗左边的猫),模型可能将猫放在了右边。
这些问题的根源在于,虽然生成模型能够学习到文本概念和视觉元素的关联,但对于它们之间精确的、结构化的关系理解得不够深入。模型“知道”什么是猫、什么是狗,但对“左边”这个空间关系的处理能力较弱。
问题新颖性
这个问题本身并非一个全新的问题。提升生成模型的忠实度和组合性一直是T2I领域的核心挑战之一,已有大量工作围绕此展开。
然而,这篇论文的切入视角和解决范式是新颖的。传统方法通常可以分为几类:
- 修改模型结构: 如调整注意力机制,强制模型关注特定词元。
- 改进训练数据: 使用更具结构化描述的文本数据进行训练。
- 使用外部工具: 结合语言解析器(Parser)来分解文本结构。
本文的创新之处在于,它提出了一种“由内而外”的解决思路:它假设强大的T2I模型(如SD)内部已经隐含了完成细粒度判别任务所需的知识,只是这些知识在生成任务中没有被显式地激活和利用。因此,它不寻求从外部引入复杂模块,而是设计一个框架来探测、提炼并强化模型自身的这种潜在能力,这是一种非常优雅且高效的思路。
2. 相关工作与前置技术原理
这篇论文建立在几个关键技术领域的基础之上:
- T2I扩散模型 (T2I Diffusion Models):
- 技术原理: 这是本文的基础架构。扩散模型通过一个“去噪”过程从纯噪声中逐步生成图像。像Stable Diffusion (SD) 这样的潜空间扩散模型(Latent Diffusion Model),首先使用一个VAE(变分自编码器)将图像压缩到低维潜空间,然后在该空间中进行去噪。去噪过程由一个U-Net结构引导,而文本条件通常通过一个预训练的文本编码器(如CLIP Text Encoder)注入到U-Net的跨注意力(Cross-Attention)层中。
- 在本文中的作用: SD是本文进行探测和优化的“主体”。论文的核心就是挖掘SD U-Net中间层特征的潜力。
- 视觉-语言预训练模型 (Vision-Language Pre-training Models):
- 技术原理: 以CLIP为代表,这类模型通过在海量图文对上进行对比学习,学会了将图像和文本映射到一个统一的多模态语义空间。在这个空间里,匹配的图文对距离更近。
- 在本文中的作用: 1) SD自身就使用CLIP的文本编码器来理解文本提示。 2) 论文在训练判别式适配器时,也借鉴了对比学习的思想来构建损失函数。
- 基于查询的目标检测器 (Query-based Object Detectors):
- 技术原理: 以DETR (DEtection TRansformer)为代表,它摒弃了传统检测器中复杂的先验框(Anchor Boxes)和非极大值抑制(NMS),而是使用一组可学习的“对象查询”(Object Queries)。这些查询通过Transformer的解码器与图像特征进行交互,每个查询最终负责预测一个特定的物体。
- 在本文中的作用: 这是本文判别式适配器 (Discriminative Adapter) 的核心灵感来源。论文借鉴了DETR的思想,使用一组“判别式查询”(Discriminative Queries)来从U-Net的特征图中“探查”和“提取”与文本相关的判别性信息。
- 模型探测 (Model Probing):
- 技术原理: 在深度学习领域,“探测”是一种研究方法,通常指训练一个简单的、线性的分类器或回归器作用于一个大模型的中间层特征之上,以判断这些特征中是否编码了某种特定的语言学或视觉信息。
- 在本文中的作用: 论文将这一概念发扬光大。它不仅仅是用一个线性分类器,而是设计了一个更强大的(但仍是轻量级的)Transformer适配器作为“探针”(Probe),来系统性地发掘SD的判别能力。
3. 创新点、技术细节与优势
核心思想
这篇论文旨在解决一个核心问题:尽管文本到图像(Text-to-Image, T2I)模型(如Stable Diffusion)在生成图像方面非常强大,但它们内在的判别能力(即理解图文细粒度对应关系的能力,如图像-文本匹配、局部物体定位)没有被充分利用和发掘。
为了解决这个问题,作者提出了一个名为 DPT (Discriminative Probing and Tuning) 的新框架。该框架的核心思想是:
- 探测 (Probing):首先设计一个轻量级的“探针”(判别式适配器),在不改变原始T2I模型的情况下,发掘和提取其内部隐藏的判别知识。
- 微调 (Tuning):利用探测阶段学到的判别能力,反过来指导和优化T2I模型,使其生成与文本描述更一致、更准确的图像。
- 自校正 (Self-Correction):在推理生成图像时,利用这个“探针”实时校正生成过程,进一步提升图文对齐质量。
技术原理详解
整个DPT框架分为两个主要阶段和一个推理时使用的自校正机制。
阶段一:判别式探测 (Discriminative Probing)
此阶段的目标是发掘T2I模型的判别潜力。
- 冻结T2I模型:首先,将预训练好的T2I模型(如Stable Diffusion)的参数完全冻结,不进行任何修改。
- 设计判别式适配器 (Discriminative Adapter):
- 特征提取:在T2I模型U-Net的某个中间层,提取去噪过程中的特征图 FtF_tFt。这个特征图被认为包含了丰富的、与输入文本相关的语义信息。
- 适配器结构:该适配器受到DETR模型的启发,采用了一个Transformer编码器-解码器结构。
- 工作流程:
- 将从U-Net提取的特征图 FtF_tFt 输入到Transformer编码器中。
- 一组可学习的、固定的判别式查询 (Discriminative Queries) QQQ 被输入到Transformer解码器中。
- 解码器通过交叉注意力机制,让这些查询 QQQ 与编码后的图像特征进行交互,最终输出一组经过优化的查询表示 Q∗Q^*Q∗。这些 Q∗Q^*Q∗ 包含了用于判别任务的关键信息。
- 训练适配器:通过两个下游的判别任务来训练这个适配器,让 Q∗Q^*Q∗ 学会理解图文关系:
- 全局匹配 (Global Matching):判断整个图像和文本描述是否匹配。使用对比学习损失函数(LmatchL^{match}Lmatch)来拉近正样本对(匹配的图文)的表示,推远负样本对。
- 局部定位 (Local Grounding):判断文本中的某个短语(如“草地上的男孩”)是否与图像中的特定区域对应。这需要模型理解更细粒度的对应关系,同样使用对比学习损失(LgroundL^{ground}Lground 等)进行优化。
此阶段的关键点:只训练轻量级的判别式适配器,而不动庞大的T2I模型。这就像是给T2I模型外挂了一个“理解力探测器”。
阶段二:判别式微调 (Discriminative Tuning)
此阶段的目标是增强T2I模型的生成能力。
- 注入判别知识:将在第一阶段训练好的判别式适配器作为“老师”或“判别器”。
- 参数高效微调 (LoRA):解冻T2I模型中的部分参数(主要是跨注意力层),并使用LoRA (Low-Rank Adaptation) 技术进行高效微调。
- 优化目标:微调的目标函数与第一阶段的判别任务目标(全局匹配和局部定位)相同。通过反向传播,将判别任务的损失传递给T2I模型的LoRA参数。
- 效果:这个过程相当于强迫T2I模型在生成图像时,更多地关注那些能被判别式适配器正确理解的特征。这使得模型生成的图像在语义上与输入文本的对齐更加精准。
此阶段的关键点:利用第一阶段学到的“判别知识”来指导生成模型的微调,从而提升其原始的生成质量,实现判别能力对生成能力的反哺。
推理阶段:自校正 (Self-Correction)
在完成训练后,于图像生成(推理)过程中,使用一种自校正机制来进一步优化结果。
- 实时指导:在生成图像的每一步去噪过程中,不仅有T2I模型自身的预测,还会利用训练好的判别式适配器。
- 计算引导梯度:适配器会计算当前潜在表征 ztz_tzt 与文本 yyy 之间的相似度分数 s(zt,y)s(z_t, y)s(zt,y)。然后,计算这个分数相对于潜在表征 ztz_tzt 的梯度 ∂s(zt,y)∂zt\frac{\partial s(z_t, y)}{\partial z_t}∂zt∂s(zt,y)。
- 校正潜在表征:这个梯度指明了一个方向,沿着这个方向调整 ztz_tzt 可以最大程度地提升图文相似度。通过公式 zt′=zt+η⋅∇ztsz'_t = z_t + \eta \cdot \nabla_{z_t} szt′=zt+η⋅∇zts 对 ztz_tzt 进行微小的修正。
- 效果:这个修正步骤就像一个实时的“方向盘”,在生成过程的每一步都将结果向着与文本更匹配的方向“推”一把,从而显著改善最终生成图像的文本遵从度。
总结
该论文的技术原理可以概括为一个三部曲:
- 探测:用一个外挂的、轻量级的Transformer适配器,从冻结的T2I模型中学习如何进行图文匹配和定位。
- 微调:用这个学成的适配器作为判别器,通过LoRA技术反向微调T2I模型,使其生成能力得到增强。
- 校正:在生成图像时,再次利用这个适配器来实时引导和修正生成过程,确保最终结果高度符合文本描述。
通过这种方式,DPT框架巧妙地发掘并增强了生成模型的判别能力,并利用这种能力显著提升了其文本到图像的生成质量和对齐精度。
优势:
无需额外训练: 直接复用了第一阶段训练的适配器,实现了“一鱼两吃”。
实时引导: 在生成过程中进行动态、实时的引导,比单纯依赖初始文本条件更灵活、更精准。
效果显著: 这种方法能有效缓解属性错乱、对象关系错误等问题。
4. 实验验证
论文通过全面的实验来验证其方法的有效性。实验设计非常清晰,分别对应了DPT框架的各个阶段和目标。
-
实验设计:
- 验证探测阶段的有效性: 在冻结SD模型的情况下,仅训练判别式适配器,并在标准的判别任务(图文检索ITM、指代表达理解REC)上进行评测,与直接在SD特征上训练线性分类器等基线方法进行比较。
- 验证微调阶段的有效性: 使用DPT微调后的SD模型进行图像生成,并与原始SD及其他SOTA(State-of-the-Art)生成模型进行比较。评测指标不仅包括传统的图像质量指标(如FID),更侧重于图文一致性指标(如CLIP Score, BLIP Score)和专门衡量组合性的基准测试(如T2I-CompBench)。
- 消融实验 (Ablation Study): 分别移除DPT框架中的关键组件(如自校正机制、微调阶段等),以验证每个部分对最终性能的贡献。
-
实验数据和结果(根据论文通常的报告方式推断):
- 探测能力验证: 论文可能会报告在RefCOCO等数据集上的REC任务准确率,以及在COCO数据集上的ITM任务召回率。
- 关键数据引用: “我们的判别式适配器在RefCOCOg数据集上的准确率达到了XX.X%,显著超过了基于SD全局特征的基线方法(YY.Y%),证明了其强大的局部定位能力。”
- 生成质量验证: 论文会展示在复杂文本提示下的生成图像对比,直观地显示DPT在处理对象数量、属性和空间关系上的优势。同时,会提供量化数据。
5. 未来探索方向与论文的潜在不足
值得进一步探索的问题和挑战
- 更复杂的组合性: 目前的工作主要集中在对象属性、数量和简单的空间关系上。对于更复杂的逻辑关系(如“除…之外的所有物体”)、递归关系(如“画中画”)以及更抽象的动作关系,仍是巨大的挑战。
- 探测与微调的统一框架: 目前的两阶段范式虽然清晰,但仍是分离的。是否可以设计一个端到端的框架,让判别能力的学习和生成能力的应用可以动态、协同地进行?
- 可解释性研究: 判别式查询 QQQ 究竟学到了什么?它们是否在语义上有所分工(例如,某些查询专门负责识别对象,某些负责识别关系)?对这些查询进行可视化和分析,将有助于打开T2I模型的“黑箱”。
- 跨模型泛化: 在SD上训练的判别式适配器,能否直接或经过少量微调后,应用于其他的T2I模型(如DALL-E 3, Midjourney)?探索这种知识迁移的可能性非常有价值。
从批判视角看的不足及缺失
- 推理速度的代价: 自校正机制虽然有效,但它在去噪的每一步(或部分步骤)都引入了额外的梯度计算(一次前向和一次反向传播),这会显著增加图像生成的耗时。论文可能没有详细讨论这一开销以及如何在效果和效率之间进行权衡。
- 对“探测”深度的探讨不足: 论文从U-Net的“中间层”提取特征,但对于具体哪一层、哪个时间步 ttt 的特征最有效,可能缺乏深入的消融分析。不同层级的特征编码了不同粒度的信息,这一选择可能对最终效果有重要影响。
- 过拟合风险: 判别式微调阶段使用了与探测阶段相同的目标函数和数据分布。这可能导致模型在这些特定类型的判别任务上“过拟合”,虽然提升了组合性,但可能会牺牲生成图像的多样性或创造力。需要实验来验证这一点。
- 适配器容量的讨论: 判别式适配器的规模(如Transformer层数、查询数量)是如何选择的?其容量大小与能够探测和增强的判别能力之间有何关系?这方面的讨论可能有所欠缺。
6. 启发、创新想法与背景知识补充
我应该从这篇论文中学到什么?(重点启发)
- “自省”范式 (Self-Reflection Paradigm): 最核心的启发是,不要总想着给大模型“喂”新东西,而要思考如何设计机制让模型“审视自己”。DPT框架的“探测-微调”本质上是一种引导模型自我审视、自我优化的过程。这个思想可以迁移到任何大模型(LLMs, 多模态模型等)的优化上。
- 轻量级适配器的妙用: 在一个巨大的、冻结的主干模型上,外挂一个轻量级的、任务导向的适配器,是一种极具性价比的“插件式”增强方法。你可以为同一个主干模型设计多种不同功能的适配器(如忠实度适配器、安全性适配器、艺术风格适配器),即插即用。
- 利用梯度进行推理时引导: 自校正机制展示了在推理时利用辅助模型的梯度来“驾驭”生成过程的巨大潜力。这是一种强大的、灵活的控制手段,可以用来施加各种约束或偏好。
可以拿来即用的创新想法
- 面向LLM的DPT: 能否设计一个类似的“探测器”来发掘LLM在逻辑推理、数学计算或代码生成方面的潜在能力?然后用探测结果来指导LLM的PEFT(参数高效微调),或者在生成答案时进行“自校正”,减少事实性错误(Hallucination)。
- 面向可控生成的适配器: 训练一个“布局适配器”,让它学会理解描述物体位置的文本(如“将太阳放在左上角”)。然后在推理时,利用其梯度引导,实现对生成内容的位置、大小的精确控制。
- 多适配器协同引导: 在推理时,能否同时使用多个适配器?例如,一个“忠实度适配器”和一个“审美适配器”同时工作,通过加权组合它们的引导梯度,生成既符合文本描述又具有高艺术美感的图像。
需要补充了解的背景知识
- 扩散模型深入原理: 不仅要了解其基本流程,还要深入理解DDPM/DDIM的数学公式、Classifier-Free Guidance的原理,以及U-Net在其中扮演的角色。
- Transformer与注意力机制: 深刻理解自注意力(Self-Attention)和交叉注意力(Cross-Attention)是理解DETR和本文适配器工作原理的基础。
- DETR模型: 强烈建议阅读DETR的原始论文。理解其“Object Query”是如何从无到有、端到端地完成目标检测的,这对于理解本文的“Discriminative Query”至关重要。
- 参数高效微调技术 (PEFT): 重点学习LoRA的原理,了解它为什么能用极少的参数实现接近全量微调的效果。