当前位置：首页 > news >正文

图像融合中损失函数【3】--梯度强度损失

news 2025/10/9 23:33:54

一、Searching a hierarchically aggregated fusion architecture for fast multi-modality image fusion

1.1 摘要翻译

1.2 方法总结

1.3 协作搜索策略（含loss）

1.4 损失函数

二、A Task-guided, Implicitly-searched and Meta-initialized Deep Model for Image Fusion

2.1 摘要翻译

2.2 贡献

2.3 方法总结

A. Image Fusion With Task Guidance

隐式架构搜索（IAS）

预文本元初始化（PMI）

2.4 训练总结

实现细节

图像融合for视觉增强

图像融合for语义理解

目标检测

语义分割

一、Searching a hierarchically aggregated fusion architecture for fast multi-modality image fusion

没有代码，相似层级融合-搜索的一篇论文：A Task-guided, Implicitly-searched and Meta-initialized Deep Model for Image Fusion

1.1 摘要翻译

多模态图像融合是指生成一个互补图像，该图像从源图像中整合了典型特征。近年来，我们见证了基于深度学习模型的多模态融合技术取得了显著进展。现有的基于卷积神经网络（CNN）的方法绞尽脑汁设计各种架构，以实现端到端的任务。然而，这些手工设计的架构无法应对高要求的融合任务，导致目标模糊且丢失纹理细节。为了缓解这些问题，在本文中，我们提出了一种新颖的方法，旨在根据各种模态原理和融合机制搜索有效架构。

具体来说，我们构建了一个层次聚合的融合架构，从特征级和对象级融合的角度提取和精炼融合特征，负责获取互补的目标/细节表示。然后，通过调查多种有效的实践方式，我们构建了一个更灵活的专用融合搜索空间。受合作原则的启发，我们采用了一种新的搜索策略，并使用不同的原理性损失和硬件约束，以充分发现组件。因此，我们可以获得一个具有快速推理时间的任务专用架构。大量定量和定性的结果表明，我们的方法在与其他先进技术相比时具有优越性和通用性。

1.2 方法总结

（一）分层聚合融合架构

特征级融合模块 (FFM)：提取并融合基础特征，生成初始融合结果，由候选单元组成可微分超级网络。
对象级融合模块 (OFM)：细化融合结果，分为目标感知对象和细节敏感对象子模块，分别保留红外目标和可见光细节。
聚合模块：采用空间注意力机制生成权重掩码，聚合目标与细节输出。

（二）融合导向搜索空间

单元级搜索空间：
- 连续单元 (CSc)：串联选择块降低搜索成本。
- 分解单元 (CDC)：通过引导滤波分解高 / 低频特征并融合。
- 多尺度融合单元 (CMS)：包含下采样、并行处理、上采样和融合。
操作级搜索空间：10 种候选操作，包括 3×3/5×5 可分离卷积、扩张卷积、残差块、密集块、空间 / 通道注意力。

（三）协作搜索策略

双层学习与硬件约束：以推理延迟为约束，公式为： $\min_{\alpha,\beta} \mathcal{L}_{val}(\alpha,\beta;\omega^*)+\lambda(LAT(\alpha,\beta))$ 其中 LAT 为延迟函数，通过操作权重线性加权计算。
分阶段搜索：先搜索 FFM，再固定 FFM 搜索 OFM，每阶段交替更新单元权重和操作权重。

1.3 协作搜索策略（含loss）

在这一部分，我们介绍三种关键符号来进行连续松弛处理，即向量化形式 𝜶 := {𝜶𝐹, 𝜶𝑂} 作为FFM和OFM的内部架构，𝜷 := {𝜷𝐹, 𝜷𝑂} 作为外部架构，以及 𝝎 := {𝝎𝐹, 𝝎𝑂} 作为权重参数。值得注意的是，我们定义 𝝎𝑂 表示 OFM 和聚合模块的权重。在定义搜索空间后，我们提出了一种协作搜索策略来逐步发现整个架构，这是一种与朴素搜索策略 [23] 相比的新解决方案。这是因为目前基于梯度的搜索范式只会直接优化 {𝜶, 𝜷} 和 𝝎，忽略了我们提出的融合原则，并且难以利用这个复杂的搜索空间。

2.3.1 带硬件感知约束的双层学习。

为了约束所搜索模块的计算成本，我们利用推断延迟作为硬件感知约束。将这个延迟约束项作为正则化损失，复合到验证损失中，在搜索阶段进行。搜索过程从超网络中发现低延迟结构可以被形式化为：

这段可微分的双层优化可以用于根据任务特定的损失搜索我们提出的模块。Lval 和 Ltrain 分别表示验证损失和训练损失。我们使用★来表示最优权重。具体来说，函数LAT可以通过操作的加权线性组合来计算：

其中， $\beta_l^k$ 表示第 l 层第k个单元的relaxation 权重， $\alpha_i^k$ 表示第 i 个操作的权重。

2.3.2 协同结构搜索。

算法1展示了用于层次结构搜索的整个协同搜索策略。我们用两个关键考虑因素详细说明了原始策略。首先，行为良好的FFM能够提供足够的特征融合图像，帮助从全局到局部的OFM搜索过程。换句话说，OFM的性能很大程度上得益于一个良好的FFM。其次，对外部架构的搜索可以帮助内层操作从宏观到微观的构建。这表明FFM和OFM的搜索关系是协同的。因此，我们提出了一种新的渐进结构搜索策略来解决方程(2)。

具体而言，整个架构的搜索策略可以分为两个阶段，分别发现FFM和OFM。我们首先使用一阶逼近[23]在FFM上执行该策略。 $L^{\text{F'}}_{\text{val}}$ 表示有限制延迟的验证损失。在固定架构下获得最佳FFM结构后，我们继续进行OFM的学习过程。需要注意的是，网络参数 $\omega_F$ 仍然被优化以保持整个架构的一致性。具体来说，对于每个模块的搜索，结构从外部到内部搜索，即交替更新 $\beta$ 和 $\alpha$ ，如算法1中的步骤（4-13）所示。

1.4 损失函数

2.3.3 损失函数。

我们使用四种类型的损失来搜索/训练候选网络。

引入强度损失以捕捉对比信息（例如，热辐射在像素强度中的高亮），其定义为：

其中高度和宽度分别用H和W 表示。

最近，使用感知损失来衡量特征域中的差异（例如，使用VGG网络 $\phi$ ），可以表示像素独特性和全局目标之间的差异。我们定义感知损失为：

其中C为通道数，i 代表层索引。

源图像和融合图像之间的结构相似性也通过 SSIM 指标来考虑。SSIM 损失 $L_{\text{ssim}}$ 可以构建为 $1 - \text{SSIM}(I_A, I_B)$

此外，图像的梯度信息通常能够刻画纹理细节和场景结构。因此，我们使用梯度损失来约束这些纹理因素，即：

其中∇ 表示梯度算子。

2.3.4 红外可见光图像融合的配置。

显然，这一任务的目标是保留来自红外图像的对比度强度以及来自可见光图像的文理细节（在梯度域中表现明显）。我们在搜索 OFM 时引入这一原则。设 $I_{\text{in}}$ 、 $I_{\text{vis}}$ 、 $I'_f$ 分别为红外图像、可见光图像和 FFM 输出的输入，我们利用 $L_{\text{int}} + L_{\text{ssim}}$ 作为 $L_F^{\text{val}}$ 和 $L_F^{\text{train}}$ 的损失函数，其中使用了源图像对。我们遵循特征改编权重[45]来控制保留程度。然后我们表示 $I_f$ 、 $I_t$ 、 $I_d$ 分别为融合图像、目标-对象模块输出和细节对象模块输出。对于 OFM， $L_O^{\text{val}}$ 和 $L_O^{\text{train}}$ 的定义为：

$\L_{\text{per}}(I_t, I_{\text{in}}) + L_{\text{grad}}(I_d, I_{\text{vis}}) + \sigma_1 L_{\text{int}}(I_f, I_{\text{in}}) + \sigma_2 L_{\text{ssim}}(I_f, I_{\text{vis}})$

$\{\sigma_1, \sigma_2\}$ 也是由 VGG 特征生成的自适应权重。

在这一篇中，梯度损失来约束纹理细节和场景结构

梯度损失应用文献：FusionDN: A unified densely connected network for image fusion

二、A Task-guided, Implicitly-searched and Meta-initialized Deep Model for Image Fusion

代码参考：

LiuZhu-CV/TIMFusion: A Task-guided, Implicitly-searched and Meta- initialized Deep Model for Image Fusion TPAMI 24

[好像不能跑]

2.1 摘要翻译

图像融合在多种多传感器视觉系统中发挥着关键作用，尤其是在增强视觉质量和/或提取综合特征以实现感知方面。然而，现有的大多数方法只是将图像融合视为一个独立的任务，从而忽略了它与这些后续视觉问题的潜在关系。此外，设计合适的融合架构通常需要大量的工程劳动，也缺乏机制来提高当前融合方法的灵活性和泛化能力。为了解决这些问题，我们建立了一个任务导向、隐含搜索和元初始化（TIM）的深度模型，以在具有挑战性的现实场景中解决图像融合问题。具体而言，我们首先提出了一种约束策略，将后续任务的信息融入到图像融合的无监督学习过程中，以指导图像融合。在此框架内，我们接着设计了一种隐含搜索方案，以自动发现适用于我们融合模型的紧凑架构，并且具有高效率。此外，还引入了一种预训练元初始化技术，利用差异融合数据支持不同类型图像融合任务的快速适应。在不同类别图像融合问题及相关下游任务（例如视觉增强和语义理解）上的定性和定量实验结果验证了TIM的灵活性和有效性。

2.2 贡献

为部分克服这些关键限制，本文提出了任务引导、隐式搜索和元初始化（TIM）图像融合模型。主要贡献包括：

任务引导融合：建立约束策略，将下游视觉任务信息聚合到图像融合中，打破大多数融合方法忽略视觉任务信息的瓶颈
隐式架构搜索：提出隐式搜索策略，自动发现高效的融合模型，避免主流设计方法的冗长调整和巨大结构工程
预文本元初始化：开发预文本元初始化策略，学习不同融合数据间的内在特征提取，使融合模型具备仅使用少量数据实现各种场景快速适应的能力
广泛应用验证：将融合方法连续应用于各种下游视觉感知任务，在增强和语义理解任务上的客观和主观比较充分评估证明了优越性和所提机制的有效性

2.3 方法总结

A. Image Fusion With Task Guidance

将任务引入到融合中，融合结果引导任务网络学习，任务反馈优化融合过程，形成闭环优化。约束形式如（1）和（2）所示。称之为约束优化，具体来说，对于给定的视觉任务，我们基于单个融合图像IF，引入标准损失函数L_T来训练N_T。同时，将图像融合过程作为约束条件。

表达基于最优网络参数∗\theta_F^* 获得融合图像I_F的过程。直接求解这个优化问题有难度，因此采用逐步的阶段式求解策略。并提及到目标函数的梯度表示：
$\frac{\partial\mathcal{L}_T}{\partial\theta_T} = \frac{\partial\mathcal{L}_T(\theta_T;\theta_T(\theta_F^*))}{\partial\theta_T} + G(\theta_T(\theta_F^*)))$

其中G(\theta_T(\theta_F^*))表示基于图像融合\theta_F^* 响应的间接梯度。

后面提到，隐式架构搜索（IAS），以发现有效的架构来合成 $N_F$ , 先验元初始化（PMI），以学习泛化的参数(denoted as $\theta^0_F$ ) . 基于IAS和PMI，我们可以利用梯度下降

来获得基本融合图像，如图1(a)底部所示

接下来，我们将图像融合的约束纳入视觉任务的优化中，以共同优化融合网络和下游任务的网络。

$\min_{\theta_T,\theta_F} \mathcal{L}_T(N_T(I_F; \theta_T)) + \eta\mathcal{L}_F(N_F(I_A, I_B; \theta_F))$

其中η 是平衡权重。

B. 隐式架构搜索（IAS）

提出隐式架构搜索，有效支持约束(2)的求解过程，朝向稳定架构。

遵循可微松弛，引入αF表示N_F的架构权重，引入搜索目标\mathcal{L}_{\alpha_F} 测量αF的影响。

隐式策略的目标是避免 θ_F 学习不足和大量计算，这更适用于无监督融合任务。需要注意的是，这里为了简洁省略了下标 F。至于求解过程，通过替换成 θ，L_α 的具体梯度 Gα 可以一般写为:

$G_\alpha = \nabla_\alpha\mathcal{L}_\alpha(\alpha; \theta) + \nabla_\theta \mathcal{L}_\alpha(\alpha; \theta)\nabla_\alpha\theta(\alpha)$

基于假设低层子问题有单一最优解，参考隐函数理论，最优参数θ特征化 $\nabla_\theta \mathcal{L}(\theta; \alpha) = 0$ 且： $\nabla_\alpha\theta(\alpha) = -\nabla^2_{\alpha,\theta} \mathcal{L}(\alpha; \theta)[\nabla^2_{\theta,\theta} \mathcal{L}(\alpha; \theta)]^{-1}$

受到Gauss-Newton（GN）方法的启发，我们利用一阶梯度的外积来近似二阶导数。基于最小二乘法，架构梯度的隐式近似可以表述为：

搜索：引入操作敏感正则化Reg 到搜索目标中，指示操作的基本属性（如计算成本和架构紧凑性）： $\mathcal{L}_{\alpha_F} = \mathcal{L}_F + \lambda(Reg(\alpha_F))$

其中λ 表示平衡融合质量和操作敏感属性的权衡系数。

C. 预文本元初始化（PMI）

$\theta_F$ 在桥接图像融合信息聚合和后续视觉任务中起关键作用。良好的初始化 $\theta_F$ 应该：

揭示内在融合原理，作为快速适应的中介
合并风格化域信息，增强对未见融合数据的泛化能力

现有图像融合方法很少消化内在融合原理，为特定融合任务设计特定融合规则和模型。更重要的是，融合任务变化很大，具有不同的强度分布。直接在混合融合数据集上进行预训练以获得可泛化的 $\theta_F^*$ 是不切实际的，因为这样的数据集无法充分存储融合任务的元知识，且没有一致的表示形式。

提出预文本元初始化策略学习快速适应能力，协助框架快速适应特定融合任务。将 ω 定义为在各种融合场景中的预训练任务权重。我们对(1)和(2)中的公式引入了一个附加约束：

其中M代表融合任务。

分层求解过程

提出分层求解过程，将预文本目标的求解分为两步：

特定场景优化： $\theta_{F_i} \leftarrow \omega - \nabla_\omega \mathcal{L}_F(N_F(I_A, I_B))$
元目标最小化： $\omega \leftarrow \omega - \nabla_\omega \sum_{i=1}^M \mathcal{L}_f(\omega; \theta_{F_i}(\omega))$

这个目标可以反映ω的泛化能力。迭代执行两步直到达到ω∗ ，然后将ω的值分配给\theta_F^0 。

2.4 训练总结

实现细节

搜索配置

搜索空间：来自现有工作的图像融合导向单元和操作符，包括连续单元CSC 、分解单元CDC 和多尺度融合单元CMS
操作符：通道注意力（CA）、空间注意力（SA）、扩张卷积（DC）、残差块（RB）、密集块（DB）、可分离卷积（SC）等
正则化：定义为GPU延迟的加权求和， $Reg(\alpha) = \sum_l \sum_{o \in O} \alpha^l LAT(o)$
搜索设置：20和80个epoch分别优化单元权重和操作符权重，使用SGD优化器，初始学习率1e−3

训练配置

预文本元初始化阶段：利用来自多个任务的400对数据优化良好初始化ω∗
融合任务：考虑四个融合任务，包括IVIF（TNO、RoadScene）和MIF（MRI、CT、PET、SPECT融合）任务
学习率：单任务和多任务更新分别设置为1e−3和1e−4
数据处理：准备大量64×64 大小的patches ，生成相应的显著性图，对RGB图像转换为YCbCr通道并取Y通道进行融合

图像融合for视觉增强

并行融合结构

设计合适的图像融合方案充分融合不同特征是重要组成部分。图像融合应保持完整但不同的信息，即结构目标信息和丰富纹理细节。

将两个目标表述为并行融合结构作为 $N_T$ 来研究这些差异：

目标提取
细节增强

损失函数设计

考虑两种损失：

强度损失【类似像素级损失】：均方误差（MSE）损失 $\mathcal{L}_{int} = \|I_1 - I_2\|_2^2$ 测量像素强度差异
SSIM度量【结构损失】：结构相似性 $\mathcal{L}_{ssim} = 1 - SSIM(I_1, I_2)$

整体损失： $\mathcal{L} = \mathcal{L}_{int} + \mu\mathcal{L}_{ssim}$

权重估计

引入两种权重公式测量信息保持：

特征信息权重：利用VGG网络的浅层和深层特征计算权重图
空间显著性权重：基于像素分布的空间显著性图估计

加权损失函数：给定两种基于模态的图像 $I_A$ 和 $I_B$ ，融合图像IF以及注意力引导的权重 $M_A$ 和 $M_B$

$\mathcal{L}_{V_{int}} = \|M_A \otimes (I_F - I_A)\|_2^2 + \|M_B \otimes (I_F - I_B)\|_2^2$
$\mathcal{L}_{V_{ssim}} = 1 - SSIM(M_A \otimes I_A, M_F \otimes I_A) + 1 - SSIM(M_B \otimes I_F, M_B \otimes I_B)$

任务损失： $\mathcal{L}_T = \mathcal{L}_{V_{int}} + \mu\mathcal{L}_{V_{ssim}}$ ，

其中μ=0.75

图像融合for语义理解

特征融合改进

基于N_F的结果，通过提出的架构搜索加强多样化N_T 用于语义理解任务（多光谱目标检测和分割）。

目标不是完全设计整个语义感知网络，而是搜索核心特征表达以提高感知任务性能。

有向无环图类型单元

改进有向无环图类型单元，具有特征蒸馏机制用于灵活表示，记为 $C_{FD}$ 。图单元包含几个节点，边表示操作符的松弛。在最终节点，该单元通过连接其他节点的特征执行特征蒸馏机制。

搜索空间

考虑低权重和高效特征表示，引入多样化单层卷积构成搜索空间：

正常卷积k×k ，k∈{1,3,5,7}
扩张卷积k×k ，k∈{3,5,7} ，扩张率为2
残差卷积k×k，k∈{3,5,7}
跳跃连接

目标检测

利用RetinaNet作为基线方案，使用特征蒸馏单元逐步融合特征。关注来自骨干网络的两个不同尺度特征，首先调整较低分辨率特征大小并在三个级别连接到单元中。

使用焦点损失定义 $\mathcal{L}_T$ 解决类别不平衡，η设置为0.5。

利用MultiSpectral数据集和加入N_F（神经架构搜索策略中的神经元因子化），我们从头开始使用所提出的方法逐步搜索整个架构。更具体来说，批量大小、架构学习率和搜索周期分别为1、3×10^-4和120。为了快速收敛，我们首先用40个周期训练融合模块以获得良好的初始化。至于训练过程，我们用160000步训练整个架构，并将学习率设置为2×10^-3，并通过余弦退火延迟到1×10^-8。

语义分割

引入ResNet18作为编码器进行特征提取。与现有RGB-T分割方案相比，基于嵌套公式的分割方案是轻量级的。插入了预先搜索的N_F，专门搜索分割网络。在1/8和1/16计算交叉熵损失被引入作为搜索和训练损失T。使用批次大小为2，初始学习率为1e-2，并使用数据增强（随机截取和旋转），我们在100个epoch中搜索解码器部分。使用SGD优化器，在240个epoch内从1e-2衰减学习率至1e-8，且η=0.5来训练网络。

解码器部分使用类似融合策略整合高低级特征图的特征。首先利用残差上采样机制调整低分辨率特征大小，然后连接作为输入。

使用均方误差（MSE）损失来衡量像素强度的差异

强度损失应用文献：

CrossFuse: A novel cross attention mechanism based infrared andvisibleimage fusion approach

hli1221/CrossFuse: CrossFuse, Information Fusion 103(2024) 102147

A Versatile Squeeze-and-Decomposition Network for Real-Time Image Fusion

https://github.com/HaoZhang1018/SDNet

查看全文

http://www.dtcms.com/a/258708.html