U2Fusion: A Unified UnsupervisedImage Fusion Network
摘要——本研究提出了一种新颖的统一、无监督、端到端的图像融合网络,称为 U2Fusion,能够处理多种图像融合问题,包括多模态、多曝光和多焦点情形。通过特征提取和信息测量,U2Fusion 能够自动估计各源图像的重要性,并自适应地设定信息保留程度,从而在统一框架下完成不同融合任务。基于这些自适应程度,网络能够学习保持融合结果与源图像之间的相似性,从而大大缓解深度学习在图像融合中的瓶颈问题,如对真实标签的依赖和对特定评价指标的需求。通过避免在顺序训练不同任务时丧失已有的融合能力,我们获得了一个适用于多种融合任务的统一模型。此外,我们还发布了一个新的红外与可见光图像对齐数据集 RoadScene(可在 https://github.com/hanna-xu/RoadScene 获取),为基准评估提供了新的选择。在三类典型图像融合任务上的定性与定量实验结果验证了 U2Fusion 的有效性和通用性。我们的代码已公开,地址为 https://github.com/hanna-xu/U2Fusion。
关键词:图像融合、统一模型、无监督学习、持续学习
引言
图像融合在从安防到工业和民用等多个领域中有广泛应用。由于硬件设备或光学成像方式的限制,单一传感器或拍摄设置所获取的图像往往只能捕捉到部分信息。例如,反射光强度的信息(具有有限亮度范围和固定景深)就是典型的不完整信息表现形式。图像融合的目标是将多个传感器或光学设置下采集的源图像的互补信息整合,生成一张合成图像。图1展示了不同图像融合任务的示意图。一张融合图像具备更强的场景表达能力和更佳的视觉感知,适用于后续的视觉任务,如视频监控、场景理解和目标识别等。
典型的图像融合任务包括多模态、多曝光或多焦点图像。为了解决这些问题,研究者提出了大量的融合算法,整体上可分为两大类:传统融合框架方法和端到端模型方法。尽管这些方法在各自的融合任务中取得了良好效果,仍存在一些待解决的问题。传统方法受限于融合规则的有限选择和手工设计的复杂性,难以进一步提升性能。而端到端模型往往依赖真实标签进行监督学习,或依赖特定指标进行无监督学习,但目前不存在适用于所有任务的通用标签或无参考评价指标。这些问题严重制约了模型统一性的发展,也阻碍了监督或无监督学习方法在图像融合中的应用。
此外,不同融合任务的目标是相似的,即整合多个源图像中的关键信息与互补信息,但由于源图像的类型不同(详细解释见第3.1节),要整合的重要信息也有很大差异,从而使得大多数方法只能针对特定任务起效。然而,得益于神经网络强大的特征表示能力,这些多样的信息可以用统一的方式进行表示,从而有可能实现一个统一的融合框架,这也是本研究所探讨的方向。
更重要的是,通过在统一模型中处理不同融合问题,这些任务之间可以相互促进。例如,如果统一模型已完成多曝光图像融合的训练,那么它在多模态或多焦点图像中对曝光区域的融合性能也将提升。因此,汇聚多个任务的优势后,统一模型能够在各个具体任务上取得比单独训练模型更好的效果,并具备更强的泛化能力。
为了解决上述问题,我们提出了一种统一的、无监督的图像融合网络——U2Fusion。在信息保留方面,首先使用特征提取器从源图像中提取丰富且全面的特征,然后通过对这些特征的信息丰富度进行度量,来定义其相对重要性,即源图像与融合结果之间的相似性关系。相似度越高,说明该源图像的信息越多地保留在融合图像中,从而具有更高的信息保留度。基于这些策略,我们训练了一个 DenseNet 模块,无需真实标签即可生成融合图像。
我们工作的主要特点和贡献如下:
-
提出了一种适用于多种图像融合任务的统一框架。具体而言,我们使用同一个模型和参数同时解决不同的融合问题,避免了每个问题都需独立设计模型的局限,同时缓解了存储和计算成本问题,以及持续学习中的灾难性遗忘。
-
构建了一个新的无监督图像融合网络,通过约束融合图像与源图像之间的相似性,解决了图像融合中的两个主要难题:缺乏通用的真实标签和无参考指标。
-
发布了一个新的对齐红外与可见光图像数据集 RoadScene,用于图像融合的基准评估(数据集地址:https://github.com/hanna-xu/RoadScene)。
-
在六个数据集上对提出的方法进行了多模态、多曝光和多焦点图像融合的实验验证。实验结果(包括定性和定量)证明了 U2Fusion 的有效性与通用性。
本论文是我们此前工作的扩展版本,主要新增的贡献体现在以下四个方面:
-
改进了信息保留度的分配策略。原策略基于源图像中的信息量与质量,改进后则基于提取特征中的信息度进行度量,从更多维度综合衡量源图像的重要特征。
-
修改了损失函数。去除了梯度损失以减少虚假边缘,引入了基于像素强度的损失来降低融合图像中的亮度偏差。
-
将第一个训练任务从可见光(VIS)和红外图像融合更换为更广义的多模态图像融合,涵盖 VIS-IR 和医学图像融合。
-
在更多公开数据集上验证了 U2Fusion 的性能,并在消融实验中从两个新角度评估了弹性权重固化(EWC)在持续学习中的有效性:一是分析 EWC 权重的统计分布,二是分析训练过程中所有任务的中间结果。同时,还验证了自适应信息保留度策略的有效性。
2 相关工作
2.1 图像融合方法
2.1.1 基于传统融合框架的方法
传统图像融合框架可大致总结如图2所示。由于重建通常是特征提取的逆过程,因此这类算法的核心在于两个关键要素:特征提取和特征融合。通过对这两个部分的修改,这些方法可以被设计用于解决多模态、多曝光或多焦点图像融合问题。
为了解决特征提取的问题,大量的传统方法被提出。这些方法的理论基础大致可分为以下四类代表性类别:
i)多尺度变换方法,如拉普拉斯金字塔(Laplacian Pyramid, LP)、低通金字塔比率(RP)、梯度金字塔(GP)、离散小波变换(DWT)、离散余弦变换(DCT)[13]、曲波变换(Curvelet Transform, CVT)、剪切波变换(Shearlet)等;
ii)稀疏表示方法 [14];
iii)子空间分析方法,如独立成分分析(ICA)、主成分分析(PCA)、非负矩阵分解(NMF)等;
iv)混合方法。
然而,这些人工设计的特征提取方法使得融合算法日益复杂,增加了设计融合规则的难度。这些提取方法还需要针对不同的融合任务进行相应的调整。此外,还必须特别关注提取方法的适用性,以确保提取到的特征具有完整性。
为克服这些局限性,一些方法引入了卷积神经网络(CNN)来进行特征提取,CNN既可以作为某些子模块 [15], [16],也可以作为整体结构的一部分 [17], [18]。
接下来,融合规则则基于所提取的特征进行设定。常用的融合规则包括最大值、最小值、加法、L1范数等。然而,这些人工设计的融合规则选择有限,即使在部分基于CNN的方法中,仍会形成性能提升的“天花板”。
值得注意的是,也有一些方法摆脱了传统融合框架的限制,如基于梯度迁移和全变差最小化的可见光-红外图像融合方法 [19],通过优化结构相似性指标的多曝光图像融合方法 [20],以及基于密集SIFT的多焦点图像融合方法 [21] 等。然而,这些方法所依赖的算法或评价指标通常针对特定的融合任务,因此在泛化能力上存在一定限制。
2.1.2 端到端模型
为避免设计复杂的融合规则,近年来提出了许多基于深度学习的图像融合算法。这类方法通常是针对特定融合任务设计的端到端模型,与第2.1.1节中提到的方法有所不同。
多模态图像融合。端到端的多模态图像融合模型主要面向可见光(VIS)与红外(IR)图像融合。Ma等人提出了FusionGAN [5],通过生成器与判别器之间的对抗过程,使融合图像能同时保留红外图像中的像素强度分布与可见光图像中的细节。随后,其变体 [22] 通过引入目标增强损失(target-enhancement loss)进一步加强了热目标边缘的清晰度。DDcGAN [23], [24] 引入双判别器结构以增强热目标的显著性。然而,VIS与IR图像融合的一个独特问题是如何同时保持像素强度分布与图像细节,这一挑战在其他类型融合任务中并不成立。此外,该任务通常缺乏真实标签(ground truth),这成为多模态图像融合中应用监督学习的主要障碍。
多曝光图像融合。为解决上述问题,一些无监督方法被提出。例如,Prabhakar等人提出了DeepFuse [7],其损失函数采用了无参考评价指标MEF-SSIM。该指标特别为多曝光图像设计,在计算中舍弃了亮度分量,因为其在该任务中并不重要。然而,亮度在其他图像融合任务中仍起着重要作用,因此MEF-SSIM并不适用于其他任务。在部分多曝光图像融合数据集中,也缺乏用于监督学习的真实标签。
多焦点图像融合。为解决此问题,Liu等人提出了一个生成焦点图的网络 [25],该网络使用预定义标签(标识图像是高质量图像或高斯模糊图像)进行监督学习。随后,该方法被扩展为一个通用的图像融合框架 [26]。得益于其泛化能力,该模型在多焦点图像融合任务中训练后也能应用于其他任务。此外,Guo等人提出了FuseGAN [27],其生成器直接生成一个二值焦点掩码,判别器则试图区分由归一化光斑点扩散函数合成的真实掩码与生成掩码。焦点图/掩码在多焦点图像融合中非常重要,而在其他任务中可能并不必要,甚至不可用。以上所有方法均基于监督学习。
我们的方法。针对上述方法的局限性,我们提出了一种统一的无监督图像融合网络,具有以下特点:
i)它是一个端到端模型,不再受限于人工设计的融合规则;
ii)它是一个统一的模型,可适用于多种融合任务,而非仅限于某一特定问题(如特殊评价指标、特定结构设计、二值掩码等);
iii)该模型采用无监督学习,无需真实标签;
iv)通过不断学习新任务而不遗忘旧任务的能力,实现参数共享并统一完成多种融合任务。
2.2 持续学习
在持续学习(Continual Learning)设定中,模型需要依次学习多个任务。在训练阶段,模型参数会根据新任务进行更新,但同时必须保留对先前任务的记忆。为避免存储以前任务的训练数据,许多基于**弹性权重固化(Elastic Weight Consolidation, EWC)**的算法被提出 [28], [29],这些算法通过引入正则项,使模型参数在训练新任务时保持与原任务训练参数的接近性。
这些技术已广泛应用于多个实际问题中,例如行人再识别 [30]、实时车辆检测 [31]、情感识别 [32] 等。在本研究中,我们将持续学习应用于解决多种图像融合任务。
第三章 方法
本系统支持从相同的摄像机位置采集、使用不同传感器和/或拍摄参数获取的图像信号。在本章中,我们将介绍问题的数学建模、损失函数设计、弹性权重固化技术(Elastic Weight Consolidation, EWC),以及网络架构设计。
3.1 问题建模
图像融合的主要目标是保留源图像中的关键信息。为此,我们的方法以衡量信息丰富程度为基础,提出了一种评估源图像中信息保留程度的统一度量方法。若源图像包含大量重要信息,其在融合结果中的地位就更重要,融合图像应与该源图像保持高度相似。因此,我们方法的关键问题在于探索一种统一的度量标准,以判断源图像的信息保留程度。
与有监督学习中最大化融合结果与“真值图像”相似度的方法不同,我们的方法基于上述度量,自适应地保持与源图像的相似性。作为一种无监督模型,我们的方法适用于多种图像融合问题,尤其是在无法获得地面真实图像的场景中。
然而,不同类型源图像中的关键信息差异显著。例如,红外图像(IR)和正电子发射断层扫描图像(PET)中的主要信息是热辐射或功能响应,通常表现为像素强度的分布;而可见光图像(VIS)和磁共振成像图像(MRI)中则主要包含反射光或结构信息,通常表现为图像的梯度特征 [19],[23]。在多焦图像中,需保留的是景深内的清晰目标;在多曝光图像中,需强化场景内容。
这些差异使得统一度量设计极具挑战性。为某一特定任务设计的度量方法通常只考虑表层特征或特定属性,难以在其他任务中保持有效。因此,我们提出了一种全面考虑源图像多维属性的方案:同时提取浅层特征(纹理、局部形状等)与深层特征(内容、空间结构等)以估计信息度量值。
U²Fusion 的整体流程如图 3 所示。设两幅源图像为 I1I_1I1 和 I2I_2I2,我们训练一个 DenseNet 网络生成融合图像 IfI_fIf。特征提取模块输出的特征图为:
fC1(I1),…,fC5(I1)fC_1(I_1), \dots, fC_5(I_1)fC1(I1),…,fC5(I1) 和 fC1(I2),…,fC5(I2)fC_1(I_2), \dots, fC_5(I_2)fC1(I2),…,fC5(I2)。
随后,对这些特征图进行信息度量,得到两个度量值 gI1g_{I_1}gI1 和 gI2g_{I_2}gI2。经过进一步处理,得到最终的信息保留度 v1v_1v1 和 v2v_2v2。在损失函数中,我们利用 I1,I2,If,v1,v2I_1, I_2, I_f, v_1, v_2I1,I2,If,v1,v2 来进行建模,无需真实标签图像。在训练阶段,计算 v1v_1v1、v2v_2v2 并用于损失函数;而在测试阶段,无需再次计算 v1v_1v1、v2v_2v2,因为 DenseNet 模块已经优化完成。各部分细节将在下文进一步说明。
3.1.1 特征提取
与专门用于图像融合任务的模型相比,许多用于其他计算机视觉任务的模型通常在更大且更丰富的数据集上进行训练,因此其提取的特征更加全面 [33],[34]。受感知损失函数(Perceptual Loss)[35],[36] 启发,我们采用预训练的 VGG-16 网络 [37] 进行特征提取,如图 4 所示。
由于本模型统一处理单通道输入图像,我们将输入图像复制成三通道再送入 VGG-16。我们提取的是每个最大池化层前的卷积层输出,即特征图:
fC1(I),…,fC5(I)fC_1(I), \dots, fC_5(I)fC1(I),…,fC5(I),这些特征图将用于后续的信息度量。
为了直观分析,图 5 展示了多曝光图像对的一些特征图。在原始图像中,过曝图像包含更多的纹理细节和更大的梯度,而欠曝图像由于亮度较低信息较少。在图 5 中,fC1(I)fC_1(I)fC1(I) 与 fC2(I)fC_2(I)fC2(I) 表示的是浅层特征,如纹理与局部形状,此时过曝图像的特征图仍显示出更多信息。而在高层特征图,如 fC4(I)fC_4(I)fC4(I)、fC5(I)fC_5(I)fC5(I) 中,更多反映的是深层内容信息与空间结构,欠曝图像也能展现出有价值的内容。
因此,浅层与深层特征的结合构成了源图像关键信息的全面表达,这些信息往往不易被人眼直接感知。
3.1.2 信息度量
为了衡量提取到的特征图中包含的信息量,我们采用其梯度进行评估。相较于基于信息论的一般信息度量,图像梯度是一种基于局部空间结构的小感受野度量方式。在深度学习框架中,梯度计算在效率和存储上都更优,因此更适合用于 CNN 结构中进行信息测量。我们定义的信息度量公式如下:
gI=15∑j=151HjWjDj∑k=1Dj∥∇fCjk(I)∥F2,g_I = \frac{1}{5} \sum_{j=1}^5 \frac{1}{H_j W_j D_j} \sum_{k=1}^{D_j} \| \nabla fC_j^k(I) \|_F^2,gI=51j=1∑5HjWjDj1k=1∑Dj∥∇fCjk(I)∥F2,
其中,fCj(I)fC_j(I)fCj(I) 表示第 j 个最大池化层前的卷积特征图,DjD_jDj 是特征图的通道数,∇\nabla∇ 表示拉普拉斯算子(Laplacian),∥⋅∥F\|\cdot\|_F∥⋅∥F 表示 Frobenius 范数。
3.1.3 信息保留度(信息重要性权重)
为了在融合图像中更好地保留源图像的信息,我们为每个源图像分配一个自适应的权重,称为信息保留度。这两个权重分别表示融合图像应与每个源图像保持多大的相似度。权重越大,表示该源图像中包含越多关键信息,融合图像应更多地参考该图像。
记源图像的信息度量值为 gI1g_{I_1}gI1 和 gI2g_{I_2}gI2,我们用如下公式计算对应的保留度(即权重)v1v_1v1 和 v2v_2v2:
[v1,v2]=softmax([gI1c,gI2c]),[v_1, v_2] = \text{softmax}\left( \left[ \frac{g_{I_1}}{c}, \frac{g_{I_2}}{c} \right] \right),[v1,v2]=softmax([cgI1,cgI2]),
其中,ccc 为预定义的正数常量,用于增强 gI1g_{I_1}gI1 与 gI2g_{I_2}gI2 的差异。Softmax 函数将二者映射为 [0,1] 区间内的实数,并保证 v1+v2=1v_1 + v_2 = 1v1+v2=1。
接下来,v1v_1v1 与 v2v_2v2 被用于损失函数中,以控制融合图像在训练过程中对每个源图像信息的保留程度。
3.2 损失函数
本方法设计的损失函数主要用于保留关键信息,并训练一个适用于多种任务的统一模型。损失函数由以下两部分组成:
L(u,D)=Lsim(u,D)+λLewc(u,D),L(u, D) = L_{sim}(u, D) + \lambda L_{ewc}(u, D),L(u,D)=Lsim(u,D)+λLewc(u,D),
其中,$u$ 表示 DenseNet 中的参数,$D$ 是训练数据集,$L_{sim}(u, D)$ 表示结果图像与源图像之间的相似性损失,$L_{ewc}(u, D)$ 是为了实现持续学习而设计的项,$\lambda$ 为用于控制两者权衡的超参数。
我们从结构相似性和强度分布两个方面实现相似性约束。考虑到结构相似性指数(SSIM)是一种广泛使用的度量,能够综合考虑亮度、对比度和结构信息,因此我们使用 SSIM 来约束融合图像 $I_f$ 与两幅源图像 $I_1$ 和 $I_2$ 的结构相似性。设 $v_1$ 和 $v_2$ 为控制信息权重的系数,则结构相似性损失定义为:
Lssim(u,D)=E[v1(1−SIf,I1)+v2(1−SIf,I2)],L_{ssim}(u, D) = \mathbb{E}[v_1 (1 - S_{I_f, I_1}) + v_2 (1 - S_{I_f, I_2})],Lssim(u,D)=E[v1(1−SIf,I1)+v2(1−SIf,I2)],
其中 $S_{x, y}$ 表示两幅图像之间的 SSIM 值。
但由于 SSIM 对强度分布的约束较弱,我们补充使用均方误差(MSE)作为第二项来增强约束:
Lmse(u,D)=E[v1⋅MSE(If,I1)+v2⋅MSE(If,I2)]。L_{mse}(u, D) = \mathbb{E}[v_1 \cdot MSE(I_f, I_1) + v_2 \cdot MSE(I_f, I_2)]。Lmse(u,D)=E[v1⋅MSE(If,I1)+v2⋅MSE(If,I2)]。
然而,仅使用 MSE 会导致融合图像变得模糊,而 SSIM 可弥补该问题。因此这两项是互补的。综合后,相似性损失定义为:
Lsim(u,D)=Lssim(u,D)+αLmse(u,D),L_{sim}(u, D) = L_{ssim}(u, D) + \alpha L_{mse}(u, D),Lsim(u,D)=Lssim(u,D)+αLmse(u,D),
其中 $\alpha$ 控制两项之间的权重。
3.3 使用弹性权重固化(EWC)实现多融合任务的单模型学习
由于不同的图像融合任务在特征提取或融合方式上存在差异,直接导致 DenseNet 参数的多样性,通常需要为每个任务分别训练不同的模型。但事实上某些参数是冗余的,因此我们希望训练一个共享参数的统一模型,能够适配多种融合任务。
实现这一目标有两种方式:联合训练和顺序训练,如图6所示。联合训练是将所有任务的数据同时参与训练,在每个 batch 中随机采样不同任务的数据。但随着任务数量的增加,会面临以下两个问题:
-
前一个任务数据必须一直保留,带来存储负担;
-
所有数据同时参与训练,导致计算量大、耗时多。
相比之下,顺序训练只需在训练当前任务时使用当前任务的数据,有效缓解了存储和计算压力。但问题在于,当模型迁移到新任务时,原任务数据不可用,可能导致模型遗忘旧任务的能力,这种现象称为灾难性遗忘(catastrophic forgetting)。
为解决该问题,我们引入**弹性权重固化(EWC)**方法。EWC 通过对当前任务的参数 $u$ 与旧任务参数 $u^*$ 的差值加权,防止重要参数发生剧烈变化。具体定义为:
Lewc(u,D)=12∑imi(ui−ui∗)2,L_{ewc}(u, D) = \frac{1}{2} \sum_i m_i (u_i - u^*_i)^2,Lewc(u,D)=21i∑mi(ui−ui∗)2,
其中 $i$ 表示网络中的第 $i$ 个参数,$m_i$ 表示该参数对旧任务的重要性。$m_i$ 的评估方式是使用斜率平方作为 Fisher 信息矩阵的对角线近似项:
mi=E[(∂∂ui∗logp(D∗∣u∗))2],m_i = \mathbb{E} \left[ \left( \frac{\partial}{\partial u^*_i} \log p(D^* | u^*) \right)^2 \right],mi=E[(∂ui∗∂logp(D∗∣u∗))2],
其中 $D^$ 是旧任务的数据。由于 $\log p(D^ | u^)$ 可由 $L(u^, D^*)$ 近似代替,上式可转化为:
mi=E[(∂∂ui∗L(u∗,D∗))2]。m_i = \mathbb{E} \left[ \left( \frac{\partial}{\partial u^*_i} L(u^*, D^*) \right)^2 \right]。mi=E[(∂ui∗∂L(u∗,D∗))2]。
只要在抛弃旧数据之前计算好 Fisher 信息矩阵,训练当前任务时就不再依赖旧任务的数据。
对于多个旧任务,$m_i$ 可通过各任务的梯度平方平均获得。具体训练过程和数据流如图7所示。
例如,在多任务图像融合中,$u$ 表示 DenseNet 的参数。首先,模型在多模态图像融合任务(Task1)上训练,优化 $L_{sim}$。当引入新的多曝光融合任务(Task2)时,先根据 Task1 的数据计算 $m_i$,使重要参数保持不变,减少遗忘;同时更新其他参数来适应 Task2。以此类推,可实现对 Task3(如多焦点融合)的扩展,实现多任务自适应融合。
3.4 网络结构
本方法使用 DenseNet 作为基础网络结构,输入为两幅源图像 $I_1$ 和 $I_2$ 的拼接,输出为融合图像 $I_f$,实现端到端训练,无需显式设计融合规则。
如图8所示,U2Fusion 中的 DenseNet 网络包含10个卷积层,每层包含一个卷积操作和激活函数。所有卷积核大小为 $3 \times 3$,步长为1,卷积前使用反射填充以减少边界伪影。不使用池化层以避免信息损失。前9层激活函数为 LeakyReLU(斜率为0.2),最后一层为 tanh。
为了增强信息传递能力,在前7层中引入 DenseNet 的密集连接结构,即每一层与前面所有层直接连接。这种方式有助于缓解梯度消失问题、提高特征传播效率,并减少参数量。所有特征图通道数统一设置为44,后续4层逐步减少通道数,最终输出单通道融合图像。
3.5 处理 RGB 输入
对于彩色图像,首先将 RGB 图像转换为 YCbCr 空间。由于亮度通道 Y 包含结构细节和主要亮度信息,因此仅对 Y 通道进行图像融合,Cb 和 Cr(色度)通道使用以下传统加权融合方式:
Cf=C1⋅∣C1−t∣+C2⋅∣C2−t∣∣C1−t∣+∣C2−t∣,C_f = \frac{C_1 \cdot |C_1 - t| + C_2 \cdot |C_2 - t|}{|C_1 - t| + |C_2 - t|},Cf=∣C1−t∣+∣C2−t∣C1⋅∣C1−t∣+C2⋅∣C2−t∣,
其中 $C_1$ 和 $C_2$ 为两张源图像的 Cb 或 Cr 通道值,$C_f$ 是融合后的对应通道值,$t$ 设为128。融合完成后,经过逆变换即可还原回 RGB 图像,从而将所有任务统一为单通道图像融合问题。
3.6 处理多幅输入图像
在多曝光或多焦点图像融合任务中,输入图像为一系列图像序列(超过两幅)。在这种情况下,U2Fusion 可通过顺序融合方式处理:首先将两幅源图像融合得到一个中间结果,然后将中间结果与下一幅图像继续融合。如此反复,理论上可融合任意数量的图像,如图9和图10所示。
4 实验结果与讨论
本节中,我们通过定性与定量比较,在多个任务和多个数据集上将U2Fusion与多种最新方法进行了对比。
4.1 训练细节
我们在三类融合任务上评估了U2Fusion模型的性能:(i)多模态图像融合,包括可见光-红外(VIS-IR)和医学图像(PET-MRI)融合;(ii)多曝光图像融合;(iii)多焦点图像融合。鉴于VIS-IR与PET-MRI融合在本质上具有相似性(详见第3.1节),因此将二者统一视为多模态图像融合(任务1)。
训练使用的四个公开数据集包括:RoadScene¹(VIS-IR)和Harvard²(PET-MRI)用于任务1,[41]³中的数据集用于任务2,Lytro⁴用于任务3。为验证U2Fusion的通用性,测试集还包含两个额外的数据集:TNO⁵用于VIS-IR融合,EMPA HDR⁶用于多曝光融合。
我们基于FLIR视频⁷发布了新的对齐VIS-IR图像数据集RoadScene,用于弥补现有数据集的不足。构建过程包括:首先,从视频中选取具有高重复场景的图像对;其次,去除红外图像中的热噪声;第三,精心选取特征点,并采用单应性变换与双三次插值对图像对进行对齐。此外,针对由于相机畸变或拍摄时延导致某些区域无法完全对齐的情况,我们剪裁出精确配准的区域。RoadScene包含221对对齐图像,覆盖道路、车辆、行人等丰富场景,解决了现有基准数据集中图像对数量少、分辨率低以及红外图像细节不足等问题。
所有数据集中的源图像被裁剪为64×64大小的图像块。对于多焦点图像,由于缺乏足够的对齐图像对,我们通过放大和翻转等数据增强方法扩充训练样本。设置参数为:a=20,β=8e-4,c分别设为3e-3、3.5e-3和1e-2,对应的训练轮数为3、2和2。使用RMSProp优化器进行参数更新,学习率设为1e-4,批量大小为18。所有实验在NVIDIA Geforce GTX Titan X GPU与3.4 GHz Intel Core i5-7500 CPU上进行。
4.2 多模态图像融合
4.2.1 可见光与红外图像融合
我们将U2Fusion与五种最新方法进行了对比:HMSD [42]、GTF [19]、DenseFuse [17]、FusionGAN [5] 和 DDcGAN [24]。在TNO与RoadScene数据集上的定性结果如图11与图12所示。
总体来看,U2Fusion呈现出比其他方法更清晰的外观。如图中高亮区域所示,其他方法丢失了一些细节信息,例如车辆、标志和车牌号。而U2Fusion能更好地保留这些细节。此外,在源图像中某一幅信息极少的情况下,U2Fusion能更完整地保留另一幅图像中的信息,例如图11最后一行与图12第一行所示。
进一步地,U2Fusion也用于可见光(RGB)与灰度红外图像的融合。在图13中所示,融合结果更像是通过红外图像增强后的可见光图像,因为融合操作仅在Y通道进行,色彩信息完全来自可见光图像。
我们在TNO和RoadScene的剩余20和45对图像上进行了定量比较,使用了四种指标:相关系数(CC)、结构相似性(SSIM)、峰值信噪比(PSNR)和差分相关总和(SCD)[43]。其中,CC衡量源图像与融合图像之间的线性相关性,PSNR评估融合过程中引入的失真,SCD量化融合图像的质量。
如表1所示,在TNO和RoadScene上,U2Fusion在CC、SSIM和PSNR指标上均排名第一,虽然在SCD指标上略逊一筹,但结果仍具有可比性。整体结果表明,U2Fusion在保持与源图像高保真度的同时,具有更少的失真、噪声和伪影。
4.2.2 医学图像融合
我们将U2Fusion与RPCNN [44]、CNN [16]、PAPCNN [45]和NSCT [6]在Harvard数据集上进行对比。如图14所示,我们的方法在尽量不损失功能(颜色)信息的前提下,融合结果拥有更多的结构(纹理)信息。
我们在剩余的10对测试图像上使用与4.2.1相同的四个指标进行定量评估,结果如表2所示。在CC、SSIM与PSNR上表现最佳,说明U2Fusion与源图像具有更高的相关性与相似性,并产生更少的失真或噪声。虽然SCD表现略低,但结果仍保持在较高水平,说明差分与源图像的相关性良好。
4.3 多曝光图像融合
我们将U2Fusion与GFF [46]、DSIFT [47]、GBM [48]、Deepfuse [7]和FLER [49]进行对比,任务难度较高,因为源图像之间的曝光差异大,信息较少。在[41]和EMPA HDR两个数据集上的定性结果分别如图15和图16所示。
由于源图像曝光设置不当,场景表达力下降,视觉感受差。而U2Fusion能够通过合适的曝光增强这些表达。在GFF、DSIFT和FLER的结果中,局部暗区域在U2Fusion中得到了改善。与GBM和Deepfuse相比,我们的方法在细节清晰度和对比度上更胜一筹,在红框标记区域中体现得尤为明显。
在[41]数据集的30对和EMPA HDR数据集的15对图像上进行了定量比较,除SSIM、PSNR与CC外,还新增了**边缘强度(EI)**指标,反映边缘点的梯度幅值。其平均值与标准差列于表3中。
在[41]数据集上,U2Fusion在SSIM与PSNR上的平均值最优,而在EI与CC上仅次于FusionDN与Deepfuse,差距分别为0.02与0.011。在EMPA HDR数据集中,U2Fusion在SSIM上同样排名第一,其余指标分别为0.037、0.064与0.009,也接近最优值。
这些结果表明,U2Fusion在保持与源图像的高相似性和相关性的同时,融合图像具有更低的失真和更强的边缘梯度表达能力。
4.4 多焦点图像融合
我们将所提出的方法与 DSIFT [50]、GBM [48]、CNN [25]、GFDF [8] 和 SESF-Fuse [18] 进行了比较,其定性结果如图17所示。尽管 U2Fusion 没有利用真实标签进行监督训练,也没有提取并填充融合图像中的清晰区域,但仍取得了可比拟的结果。如第一行所示,在其他方法中,清晰与模糊区域边界处的边缘出现了模糊的现象。而在 U2Fusion 中,这种现象得到了缓解,因为它在融合过程中尝试判断区域的模糊关系后重建清晰区域。
另一明显差异体现在最后两行。DSIFT、CNN、GFDF 和 SESF-Fuse 在清晰与模糊区域的边界处,远景图像中的一些细节丢失,例如高尔夫球和耳朵的边缘。虽然 GBM 保留了这些细节,但其结果中明显出现亮度和颜色偏差。相比之下,U2Fusion 更好地保留了这些细节。
评估指标包括边缘信息(EI)、相关系数(CC)、视觉信息保真度(VIF)[51] 和平均梯度(MG)。VIF 用于衡量融合结果与源图像之间的失真程度,MG 越大,表示图像包含的梯度越多,融合性能越好。如表4所示,U2Fusion 在 EI 和 CC 上取得了最优结果。在 EI 上的最好成绩以及 MG 上的次优成绩表明,我们的结果包含更多梯度,呈现出更清晰的外观。这些结果与图17中的定性结果一致。此外,CC 上的最优结果和 VIF 上的优异表现说明 U2Fusion 与源图像具有最高的线性相关性,并达到了可比的信息保真度。
5 消融实验
5.1 关于 EWC 的消融研究
在 U2Fusion 中,我们使用弹性权重固化(EWC)来训练一个统一模型,以同时适用于三种融合任务,并防止灾难性遗忘。为了验证其有效性,我们进行了对比实验,依次训练这三个任务,但不使用 EWC。从三个方面分析其效果:i)相似度损失;ii)mi 的统计分布;iii)训练阶段的中间融合结果。
图18展示了相似度损失 Lsim(u,D)L_{sim}(u,D)Lsim(u,D)(见公式(3))的变化。第一幅图为未使用 EWC 时各任务的相似度损失,第二幅为使用 EWC 的情况。任务1和2之间的损失差异不大。然而,在任务3的训练过程中,如果不使用 EWC,验证集中任务2的损失显著上升,表明当前网络在多曝光图像融合上的性能下降。而使用 EWC 时,先前任务的相似度损失几乎保持不变,因此,通过 EWC,我们能够获得一个适用于多个任务的统一模型。
图19展示了有无 EWC 时 mi 的统计分布。mi 是通过各任务训练后使用相似度损失计算得到的。例如,任务3训练完成后,mi 是任务1和任务2各自数据集计算得到的平均值。未使用 EWC 时,各任务得到的 mi 分布差异不大,表明参数仅与当前任务相关。而使用 EWC 后,大 mi 的比例明显增加,说明网络中存在更多关键参数,这些参数不仅对当前任务重要,也对先前任务有帮助。同时,小值比例的减少也表明网络冗余降低,越来越多的参数在提升融合性能方面起着重要作用。
图20展示了使用与不使用 EWC 时的定性结果对比。在训练任务1和任务2后,模型在多模态和多曝光图像融合任务上均能取得较好表现。但因未训练任务3,在多焦点图像融合中结果表现为边缘模糊(见图20a、20b 和 20d)。经过任务3的训练后,图20d 和 20e 显示出更清晰的图像外观。而若不使用 EWC,模型在任务2上的表现下降,例如图像整体亮度降低。图20b 和 20c 中任务1的结果差异也非常明显。使用 EWC 后,这些问题明显减轻(见图20d 和 20e)。
5.2 统一模型实现任务间的相互促进
在 U2Fusion 中,我们利用 EWC 实现连续学习,使统一模型能融合多种类型的源图像。通过统一参数,U2Fusion 在单任务中学到的信息可以促进其他任务的表现。为了验证这一点,我们分别训练了仅适用于单一任务的个体模型,避免任务间的交互。图21展示了对比结果。
虽然多模态和多焦点图像融合与多曝光图像融合在形式上不同,但前两者也存在过曝区域,比如图中前三列的可见图像和最后一列的远焦图像。U2Fusion 在多曝光图像融合任务中学到的知识使其在处理这些过曝区域时表现更好,图像细节更加清晰。
另一个例子出现在第六列的多曝光图像融合中。源图像中高亮区域与多焦点图像中的情况类似。由于模型在多焦点图像融合中已有学习经验,因此 U2Fusion 融合结果中的边缘更清晰锐利,优于个体模型。由此可见,通过汇聚多任务的优势,U2Fusion 不仅具有较强的多类型图像处理能力,还能在同一类型图像中处理不同区域。因此,统一模型能够实现不同融合任务之间的相互促进。
5.3 关于自适应信息保留程度的消融实验
为了验证自适应信息保留程度的有效性,我们进行对比实验,将 v1v_1v1 和 v2v_2v2 固定设置为 0.5。图22展示了六个数据集上的对比结果。第一行为固定参数的结果,第二行为 U2Fusion 的结果。
在多模态图像融合中,不使用自适应参数会导致细节表现较差,如云的边缘、吉普车的纹理、网格细节和结构信息等。在多曝光图像融合中,过曝区域处理效果明显变差,例如花朵、窗户和太阳等区域仍然过曝。而这一现象在多焦点图像融合中最为明显。固定参数时,网络无法区分清晰与模糊区域,导致边缘模糊,而 U2Fusion 则生成了更为锐利的图像效果。
5.4 训练顺序的影响
三种融合任务中,多焦点图像融合与多模态、多曝光图像融合略有不同。前两者可以将融合结果视为源图像的组合,而多焦点图像融合更像是在两个图像中选取清晰区域,因此期望其融合结果在清晰区域与源图像高度相似。
我们进行了两个对比实验来探究训练顺序的影响。首先,将训练顺序改为多曝光→多模态→多焦点图像融合。图23为定性结果,表5为定量结果。从结果来看,更换前两个任务的训练顺序对多焦点图像融合影响不大,这两个任务结果具有较高亮度和平均梯度。但原始训练顺序下,结果与源图像的相关性更高。
其次,考虑到多焦点图像融合的特殊性,我们将其设为第一个任务,训练顺序为多焦点→多模态→多曝光图像融合。可以明显看到多焦点图像融合结果更加模糊(见图23最右列),表5中平均梯度显著下降,从 0.0677 或 0.0700 降至 0.0563。U2Fusion 的持续学习能力得益于 Lewc(u,D)L_{ewc}(u,D)Lewc(u,D)(见公式(7)),一些不重要的参数被更新以适应新任务,导致对旧任务的性能略有下降。由于多焦点图像融合的特殊性,这种性能下降尤为明显,特别体现在边缘模糊上。
综上,改变多模态与多曝光图像融合的顺序对结果影响不大,而多焦点图像融合的顺序对性能影响较大。综合表5中的结果,采用“多模态→多曝光→多焦点”的训练顺序能够获得最佳性能,因此 U2Fusion 采用了该顺序。
5.5 U2Fusion 与 FusionDN 的对比
本研究提出的方法是基于 FusionDN [11] 的改进版本,相关改进内容已在第1节中介绍。为了验证这些改进的有效性,我们对比了 FusionDN 和 U2Fusion 的实验结果,如图24所示。
首先,我们改进了信息保留度分配策略,通过调整源图像中的信息量和质量来实现。如图24中的第一列和第二列所示。在 FusionDN 中,信息保留度依赖于原始源图像中的信息量和质量,因此能较好地保留可见光区域(如烟雾与背景之间)的高对比度。但相应的红外区域中的大量细节却被丢失。而在 U2Fusion 中,我们通过提取的丰富特征来评估信息量,调整了信息保留度,从而保留了更多源图像中的细节信息。
其次,我们修改了损失函数,去除了梯度损失项,加入了 MSE 损失项。在 FusionDN 中,引入梯度损失是为了保留更多梯度信息,但也导致了部分伪边缘的出现,如图24的第四列和第五列所示。而在 U2Fusion 中,我们去除了该梯度损失,依赖 SSIM 和改进后的信息保留度分配策略来保持结构信息,仍然能获得清晰的图像外观,并缓解了伪边缘的问题。此外,由于 FusionDN 仅依赖 SSIM 来保留亮度分布,导致其结果中的亮度与源图像相比存在一定偏差,如图24最后一列所示。为了解决亮度偏差问题,U2Fusion 增加了 MSE 损失,使得最终结果的亮度更接近源图像。
最后,我们将模型的第一个融合任务由可见光与红外图像融合(VIS-IR)拓展为多模态图像融合,新增了可见光-红外(VIS-IR)和 PET-MRI 图像融合任务。由于 FusionDN 未在医学图像数据集上训练,其在该任务中的结果不理想,表现为边缘模糊和背景灰暗,如图24第三列所示。
第6章 结论
本研究提出了一种新颖的统一的、无监督的端到端图像融合网络,命名为 U2Fusion,用于解决多种图像融合问题。首先,我们设计了自适应信息保留度机制,作为评估源图像中信息量的一种度量方式,从而使不同任务能够在统一框架下处理。特别是,这种自适应保留度使网络能够学习融合结果与源图像之间的自适应相似性,因此无需使用真实标签图像(ground truth)进行监督训练。
此外,我们还解决了灾难性遗忘(catastrophic forgetting)问题,同时降低了存储和计算开销,使得一个模型即可适用于多个任务。该模型能够高质量地完成多模态图像融合、多曝光图像融合和多焦点图像融合任务。定性和定量实验结果均验证了 U2Fusion 的有效性与通用性。
此外,我们还在 FLIR 视频数据基础上,发布了一个新的对齐红外-可见光图像数据集 RoadScene,为图像融合的基准评估提供了新的选择。