当前位置：首页 > news >正文

图像融合中损失函数【4】--复杂图像特征的损失函数

news 2025/10/9 7:53:57

一、Rethinking the necessity of image fusion in high-level vision tasks: A practical infrared and visible image fusion network based on progressive semantic injection and scene f idelity

1.1 摘要翻译

图像融合旨在将源图像的互补特性整合到单个融合图像中，以更好地服务于人类视觉观察和机器视觉感知。然而，现有的大多数图像融合算法主要侧重于提高融合图像的视觉吸引力。虽然有一些基于语义的方法考虑了下游应用的语义需求，但它们均未展现图像级融合相对于特征级融合的潜力，后者能够直接在多模态特征上完成高级视觉任务，而不是在融合图像上完成。为克服这些局限，本文提出了一种基于渐进语义注入和场景保真约束的红外和可见光图像融合网络，称之为PSFusion。首先，稀疏语义感知分支提取足够的语义特征，然后通过语义注入模块逐级整合到融合网络中，以满足高级视觉任务的语义需求。场景恢复分支中的场景保真路径旨在确保融合特征包含用于重建源图像的完整信息。此外，对比度掩码和显著目标掩码被用于构建融合损失，以保持融合结果的出色视觉效果。特别是，我们提供了定量和定性的分析，以证明图像级融合相对于特征级融合在高级视觉任务中的潜力。随着大规模模型的快速发展，图像级融合可以迅速利用多模态数据和最新单模态分割的优势，实现更优秀的性能。此外，广泛的对比实验表明，我们的PSFusion在网络视觉吸引力和高阶语义方面优于现有的先进图像级融合方法。即使在恶劣条件下，我们的方法也能提供令人满意的融合结果，以服务于后续的高级视觉应用。

1.2 引言总结

现有方法的局限性

视觉感知导向方法的问题：

主要关注提升融合图像的视觉效果
未考虑后续高级视觉任务的需求
缺乏语义信息的有效保留

语义驱动方法的不足：

SeAFusion等方法虽然考虑了语义需求，但未证明图像级融合相比特征级融合的潜力
仅依赖最大选择策略约束融合图像强度，在极端环境下表现有限
如图1(b)所示，SeAFusion在车灯干扰下无法有效呈现高亮区域的行人

特征级融合的挑战：

需要两个独立的特征提取网络，计算负载翻倍
模态共享网络无法有效适应红外和可见光图像的域变化
针对特定任务设计，难以泛化到其他任务
与新兴骨干网络的适配需要繁琐的重新设计

贡献

核心创新点：

证明图像级融合的潜力： 证明了多模态图像级融合在高级视觉任务中能以更低的计算负载实现与多模态特征级融合相当的性能
渐进式语义注入机制： 在特征级别将语义特征渐进式注入融合网络，确保融合结果包含丰富的语义线索，对任意高级骨干网络友好且鲁棒
场景保真度路径： 设计与图像融合路径并行的场景保真度路径，约束融合模块保留源图像的完整信息

技术架构：

场景恢复分支：包含图像融合路径和场景保真度路径
稀疏语义感知分支：提取充分的语义特征
语义注入模块：在特征级别渐进式整合语义信息

1.3 框架总结

3.1 整体框架

核心设计理念： 首次提出在特征级别显式注入语义信息，以适应不同的高级语义模型

网络架构组成：

1. 场景恢复分支：

场景保真度路径： 负责从融合特征重建源图像
图像融合路径： 生成最终融合图像
共享模块： 渐进式语义注入模块(PSIM)、密集场景重建模块(DSRM)、语义注入模块(SIM)

2. 稀疏语义感知分支：

稀疏语义感知模块(S2PM)：提取语义特征
稀疏语义感知路径(S2P2)：包含三个任务特定头部，从不同角度感知稀疏语义

输入输出定义：

输入： 配准的红外图像 $I_{ir} \in \mathbb{R}^{H \times W \times 1}$ 和可见光图像 $I_{vi} \in \mathbb{R}^{H \times W \times 3}$
输出： 重建的红外图像 $\hat{I}_{ir}$ 、可见光图像 $\hat{I}_{vi}$ 、融合图像 $I_f \in \mathbb{R}^{H \times W \times 3}$
语义输出： 边界分割结果 $I_{bd}$ 、语义分割结果 $I_{se}$ 、二值分割结果 $I_{bi}$

①特征提取网络

采用ResNet [63] 作为基本的特征提取网络，并设计了两个表浅的特征提取块（Superficial Feature Extraction Block, SFEB），用以替换ResNet的第一层。特征提取可以表示为：

其中，𝑖 = 3,4,5,6 。

当 i=1,2,3 时： $\mathcal{F}^i_{ir}$ 和 $\mathcal{F}^i_{vi}$ 表示浅层红外和可见光特征
当 i=4,5,6时： $\mathcal{F}^i_{ir}$ 和 $\mathcal{F}^i_{vi}$ 表示深层红外和可见光语义特征

②浅层细节融合模块(SDFM)

设计原理： 浅层特征包含丰富的细节和结构信息，基于通道-空间注意力机制整合浅层特征

网络架构： 如图5所示，在通道维度上拼接红外和可见光特征，然后将它们送入由卷积和池化操作组成的通道注意力模块，以生成注意力权重

特征增强过程：

其中，⊕ 表示元素级求和，⊗ 表示元素级乘法，𝑃𝑤-𝐶𝑜𝑛𝑣^𝑛(⋅) 表示 n 个点式卷积层级联，C(⋅) 表示在通道维度上的连接操作，𝛿(⋅) 和 𝐺𝐴𝑃(⋅) 分别表示 sigmoid 函数和全局平均池化。之后，强化后的特征在通道维度上进行连接，并馈入并行的通道注意力模块和空间注意力模块以生成最终的融合权重。融合权重生成过程可以表示为：

融合权重生成：

由于红外和可见光特征是互补的，我们可以使用生成的一种模态的权重，而另一种模态的融合权重可以表示为 $1-\mathcal{W}^i$ 。因此，表面特征的融合过程可以表述为：

最终融合：

$\mathcal{F}^i_{fu} = (\mathcal{W}^i \otimes \hat{\mathcal{F}}^i_{ir}) \oplus ((1 - \mathcal{W}^i) \otimes \hat{\mathcal{F}}^i_{vi})$

③深层语义融合模块(PSFM)

设计动机： 高级视觉任务需要丰富的上下文信息进行全面理解，基于交叉注意力机制整合深层特征

网络架构： 如图6所示，

特征增强： 首先使用密集层增强骨干网络提取的特征，输出增强的深层特征 $\hat{\mathcal{F}}^i_{ir}$ 和 $\hat{\mathcal{F}}^i_{vi}$

投影函数：

其中 x∈{ir,vi} 表示模态， $K^i_x \in \mathbb{R}^{H_i W_i \times C_i}$ 为键，V为值

模态不变查询：同时结合了红外和可见光特征来生成我们所用的模态不变查询，如公式 (8) 所示，这允许我们完全利用多模态特征中的互补特性

其中 $Q^i \in \mathbb{R}^{H_i W_i \times C_i}$ ，通过结合红外和可见光特征生成，完全利用多模态特征的互补特性

注意力计算：计算每种模态 x的模态特定注意力图

其中 $\mathcal{A}_x \in \mathbb{R}^{H_i W_i \times H_i W_i}$ 为模态特定注意力图

最终融合：将 value 乘以注意力，以获得具有全局上下文的特征。类似于 SDFM，我们还将全局特征添加到另一个分支的原始特征中，并沿通道维度连接结果特征。最终，我们将连接后的特征输入到卷积层中以获得融合特征。该过程可以表示为：

接下来，我们将首先介绍语义感知分支，然后进一步介绍场景恢复分支，因为场景恢复分支需要吸收来自语义感知分支的语义特征。具体来说，浅层特征包含了大量的低级信息，即详细的局部信息，这可能会对高层次视觉任务的性能产生负面影响 [66]。因此，我们的稀疏语义感知分支仅利用深层次特征和最后的浅层特征来预测边界、语义和二元分割结果。

稀疏语义感知分支 (S2PM)

设计原理：浅层特征包含了大量的低级信息，即详细的局部信息，这可能会对高层次视觉任务的性能产生负面影响 [66]。因此，我们的稀疏语义感知分支仅利用深层次特征和最后的浅层特征来预测边界、语义和二元分割结果。

初始语义特征生成：这些特征首先经过卷积和上采样操作，然后在通道维度上进行连接，拼接后的特征作为初始语义特征.具体表示如下

其中 ↑n(⋅)表示上采样n倍

稀疏语义感知路径(S2P2)：被输入稀疏语义知觉模块（S2PM），该模块由连续的卷积块组成。每个卷积块包含一个核大小为 3 × 3 的卷积层、批量归一化和ReLU激活函数。借鉴了 GMNet [18] 的思路，设计了一种稀疏语义知觉路径，用于预测边界的、语义的和二值分割的结果。稀疏语义知觉路径可以表示如下：

1. 边界分割：

2. 语义分割：

3. 二值分割：

其中 ConvBN(⋅)表示包含3×3卷积层、批归一化和ReLU激活函数的卷积块

渐进式语义注入机制 (PSIM)

设计目标： 场景恢复分支充分利用语义感知分支生成的深层语义信息

渐进式语义注入模块(PSIM)：由多个语义注入模块(SIM)组成，渐进式地将后两个浅层特征注入到第一个浅层特征中

注入过程：

首先将第三层浅层特征的语义信息注入到第二层特征中
然后将第二层特征的语义信息注入到第一层浅层特征中

语义注入模块(SIM)公式：

其中 IN(⋅) 表示非参数实例归一化

场景恢复分支流程：

吸收丰富语义信息的第一层浅层特征作为初始细节特征 $\mathcal{F}_{sr}$
通过密集场景重建模块(DSRM)增强细粒度细节
通过SIM将S2PM生成的语义特征 $F_{sr}$ 注入场景重建特征
另一个DSRM强化细粒度特征，生成最终场景重建特征 $\hat{\mathcal{F}}_{sr}$

场景保真度路径

设计目的： 约束融合特征包含重建源图像的完整信息

路径组成：

模态特定掩码
卷积层
Tanh激活函数

功能机制： 从 $\hat{\mathcal{F}}_{sr}$ 重建源图像，约束 $\hat{\mathcal{F}}_{sr}$ 包含重建红外图像 $\hat{I}_{ir}$ 和可见光图像 $\hat{I}_{vi}$ 的完整信息

双重约束效果： 在稀疏语义感知路径和场景保真度路径的双重约束下，图像融合路径生成的融合结果能包含：

充分的语义信息
完整的场景信息

这为成像场景的全面理解提供了基础。

3.2 损失函数

PSFusion不仅使用融合损失直接约束融合结果，而且还利用场景保真路径和稀疏语义感知路径间接约束融合网络的特征提取和聚合。接下来，我们将依次描述融合损失、场景保真损失和稀疏语义预测损失。

融合损失

我们将引入强度损失L_{𝑖𝑛𝑡}、纹理损失 L_{𝑡𝑒𝑥𝑡} 和相关损失L_{𝑐𝑜𝑟𝑟}，以约束融合结果的视觉质量。

如图1所示，由于 SeAFusion [3] 只使用最大选择策略构建强度损失，因此在某些极端情况下无法充分展现图像融合的优势。因此，我们从以下两个方面重新思考强度损失。一方面，由方差特征表征的红外图像的高对比度特性应得以保留。因此，我们通过对比红外图像和可见光图像的方差生成一个对比度掩模，以指导融合网络适当地保留高对比度区域。

1. 对比掩码： 通过比较红外和可见光图像的方差生成对比掩码，指导融合网络自适应保留源图像中的高对比度区域：