当前位置：首页 > news >正文

多模态融合【十九】——MRFS: Mutually Reinforcing Image Fusion and Segmentation

news 2025/7/2 19:45:08

一.摘要

二.Introduction

三. 背景与动机

四.方法

4.1. 概述

4.2. IGM-Att模块

4.3. PC-Att模块

4.4. 任务头

五.实验

5.1. 数据集与实现细节

5.2. 语义分割

5.3. 图像融合

5.4. 消融研究

5.5. IGM-Att和PC-Att的应用增益

5.6. 复杂度讨论

5.7. 目标检测的语义验证

六.结论

一.摘要

本文提出了一种耦合学习框架，称为MRFS，旨在突破红外-可见光图像融合与分割的性能瓶颈。通过利用视觉与语义之间的内在一致性，该框架强调相互增强，而非将这些任务视为独立问题。首先，我们将弱化信息恢复和显著信息整合嵌入图像融合任务，采用基于CNN的交互式门控混合注意力（IGM-Att）模块提取高质量视觉特征，旨在满足人类视觉感知，生成纹理丰富、对比度高、色彩生动的融合图像。其次，开发了基于Transformer的渐进循环注意力（PC-Att）模块以增强语义分割，建立单模态自增强和跨模态互补机制，从而提升机器语义感知的决策精度。随后，通过IGM-Att和PC-Att的级联，耦合图像融合与语义分割任务，隐式地使视觉相关和语义相关的特征更紧密对齐。因此，二者相互提供学习先验，生成视觉上满意的融合图像和更精确的分割决策。在公共数据集上的广泛实验展示了该方法在视觉满意度和决策精度方面的优势。代码已公开，地址为https://github.com/HaoZhang1018/MRFS。

MRFS框架通过耦合红外-可见光图像融合与语义分割，突破传统方法性能瓶颈。其核心创新在于利用视觉与语义的内在一致性，通过相互增强机制优化任务协同。

图像融合优化：采用CNN-based IGM-Att模块，通过弱化信息恢复和显著信息整合，提取高质量视觉特征。生成的融合图像具有高纹理、强对比度和鲜艳色彩，满足人类视觉需求。
语义分割增强：基于Transformer的PC-Att模块通过单模态自增强和跨模态互补，提升语义分割精度，优化机器语义决策。
任务耦合：通过IGM-Att与PC-Att的级联，框架实现视觉与语义特征的动态对齐，任务间相互提供学习先验，提升融合图像质量和分割准确性。

优势：实验验证了MRFS在视觉满意度和决策精度上的显著提升，代码公开可复现。

意义：该框架为多模态视觉任务的协同优化提供了新思路，适用于复杂场景的图像处理与分析。

二.Introduction

由于成像原理的限制，单一的红外或可见光图像无法全面描绘成像场景[17, 38, 42]。在此背景下，红外与可见光模态融合（IVMF）结合了两者的特定优势，有助于人类和机器更好地理解场景[5, 10, 19, 37]。凭借其实用价值，IVMF已应用于安全监控、夜间辅助驾驶等领域[16, 22]。根据用途，IVMF可分为图像融合和语义融合。前者旨在生成符合人类视觉感知的高质量可视化图像，通常具有丰富纹理、显著对比度和鲜艳色彩[13, 23, 36]；后者专注于实现更有利的场景特征表达，使机器能够进行语义级别的场景决策和描述，例如语义分割和目标检测[12, 49]。本文特别聚焦于语义分割[9, 45]作为语义融合的代表。

近年，深度学习的进步显著推动了IVMF的发展。在图像融合中，由于缺乏地面真实数据，研究重点在于设计无监督损失函数以保留信息，常用方法是基于融合图像与源图像之间多种表示变量的相似性损失，提取符合人类视觉感知的图像特性[18, 32, 35]。例如，PMGI[41]按比例保持强度和梯度，倾向于高对比度、高频纹理特征。而在语义融合中，由于存在标注数据，研究者关注创新网络结构以确保特征间的有效交互，实现互补和整合[2, 31, 43, 51]。例如，LASNet[9]通过协作定位、互补激活和边缘锐化模块整合多模态特征，促进对语义决策至关重要的特征提取。当前方法在视觉效果和分割方面显示出良好成果，但仍面临挑战。

首先，特征中和缺陷和低光信息丢失阻碍了图像融合。前者指无监督损失固定比例导致的热对比度和纹理衰减[18, 28, 41]；后者指由于低强度而在融合过程中错误丢弃低光可见光图像的细节[35, 46]。其次，在特征交互实现中，当前IVMF模块忽视了池化特征重要性误判问题。此外，单模态自增强与跨模态互补之间的内在逻辑传递关系讨论不足。这些疏忽导致特征有效性评分不匹配[3, 21]和特征聚合不足[39, 51]，限制了图像融合和分割精度。最后，大多数方法将图像融合和语义分割视为孤立问题[44, 45]，忽略了它们内在的互利关系。尽管SeAFusion[27]和SegMiF[14]通过将图像融合作为语义分割的前置任务寻求改进，但这种顺序连接可能建立相互依赖关系，限制两者的性能，如图1所示。为应对这些挑战，我们提出了一个耦合学习框架，以提升图像融合和语义分割性能。该框架利用视觉与语义的内在一致性，使两任务相互增强而非独立。首先，我们将显著信息整合和弱化信息恢复融入图像融合，以解决特征中和缺陷和低光信息丢失。一方面，摒弃固定比例的无监督损失，动态选择显著对比度和纹理作为优化目标以保持一致性；另一方面，采用一系列数据增强策略构建正样本并融入融合引导，自适应恢复低强度纹理并增强热目标显著性。其次，我们引入基于CNN的交互式门控混合注意力（IGM-Att）模块用于视觉补全，以及基于Transformer的渐进循环注意力（PC-Att）模块用于语义补全。这些模块纠正特征有效性评分不匹配并缓解特征聚合不足问题。具体而言，IGM-Att通过可训练门控机制识别误判的位置特征，纠正高低评分不匹配，优化传统基于池化的注意力机制。同时，PC-Att实现单模态自增强和跨模态互补，形成红外与可见光特征有效融合的闭环。最后，我们通过IGM-Att和PC-Att作为中介，统一图像融合和语义分割。图像融合中符合人类感知的视觉相关特征（如恢复的细节、显著热对比度）有益于语义分割；反之，分割中的语义相关特征为融合图像提供有利外观特性（如目标轮廓）。这些方面的协同优化预计将带来比单独优化更高的回报。总之，我们的贡献如下：

• 增强图像融合的显著信息整合和弱化信息恢复能力，有效缓解特征中和缺陷和低光信息丢失，从而将显著对比度和丰富纹理有效传递至融合图像。

• 设计基于CNN的交互式门控混合注意力模块用于视觉补全，以及基于Transformer的渐进循环注意力模块用于语义补全，分别解决特征有效性评分不匹配和增强特征聚合充分性。

• 通过图像融合和语义分割的战略耦合，建立相互增强关系，实现两者性能的双重提升。

背景与挑战：红外与可见光图像因成像原理限制，单独均无法完整表征场景。IVMF通过融合两者的互补优势，广泛应用于安全监控、夜间驾驶等场景，涵盖图像融合（视觉优化）和语义融合（机器决策）。然而，现有方法面临以下问题：

图像融合：无监督损失的固定比例导致特征中和（热对比度与纹理衰减）和低光信息丢失（细节错误丢弃）。
语义融合：特征交互模块忽视池化特征重要性误判，缺乏单模态自增强与跨模态互补的逻辑传递，造成特征有效性评分不匹配和聚合不足。
任务隔离：传统方法将图像融合与语义分割孤立处理，忽略互利关系；现有联合方法（如SeAFusion）采用顺序连接，引入性能依赖限制。

MRFS框架创新：

图像融合优化：
- 摒弃固定比例损失，动态选择显著对比度和纹理作为优化目标，缓解特征中和。
- 通过数据增强构建正样本，自适应恢复低光纹理并增强热目标显著性，解决信息丢失。
语义分割增强：
- IGM-Att模块（CNN-based）：通过可训练门控机制纠正池化特征评分误判，优化视觉特征提取。
- PC-Att模块（Transformer-based）：实现单模态自增强与跨模态互补，形成闭环特征融合，提升语义决策精度。
任务耦合：通过IGM-Att与PC-Att中介，视觉特征（细节、热对比度）助力语义分割，语义特征（目标轮廓）优化融合图像，实现协同增强。

贡献与意义：

有效解决特征中和、低光信息丢失及特征交互不足问题，提升融合图像质量与分割精度。
提出视觉-语义耦合新范式，为多模态任务协同优化提供理论与实践参考。

三. 背景与动机

特征中和缺陷与低光信息丢失
红外与可见光图像在强度和梯度分布上通常存在显著差异。在这种情况下，传统固定比例的无监督损失会削弱重要特性，例如对比度，如图2所示。一种潜在的解决方案是在优化过程中动态优先选择源图像中的优质特征，确保显著对比度和纹理的保留。此外，在光照条件较差的情况下，低强度可见光图像往往掩盖了有价值的细节。在融合过程中，这些细节常被忽视并丢弃，导致关键信息丢失，如图2所示。从低强度区域挖掘更多细节将有效提升融合图像的整体质量。

特征有效性评分不匹配
在传统基于池化的注意力机制中，特定特征的评分通常通过对应通道或空间位置上所有特征的统计数据确定[3, 21]。主流统计操作如平均池化和最大池化[7, 30, 33]计算特定维度特征的平均或最大响应。然而，平均池化可能将低评分错误分配给被负向特征包围的正向特征，如图3(a)所示。同样，平均池化和最大池化可能将高评分错误分配给被正向特征包围的负向特征，如图3(b)所示。引入一种通过评估每个特征对其他特征影响的校正机制来重新分配评分将非常理想。

特征聚合不足
在特征融合过程中，许多方法使用跨注意力进行互查询和嵌入，以增强信息的互补性[39, 51]。然而，仅依赖跨模态互补性是不够的，因为它无法充分利用自身模态的信息，如图4所示。在特征提取过程中引入自注意力机制可以部分解决这一问题。然而，自注意力并非专为特征融合设计，因此与跨注意力的兼容性不佳。因此，在特征融合中同时考虑单模态自增强和跨模态互补性是有益的。它们自然形成一个闭环，增强聚合特征的表达能力。

视觉与语义的内在一致性
对于低级视觉任务如图像融合，人类优先关注视觉相关特征以进行感知；而在高级任务如语义分割中，机器则聚焦于语义相关特征以实现精准决策。这引发了一个有趣的哲学问题：机器与人类的感知方式是否相似？换言之，人类依赖的视觉特征与机器依赖的语义特征之间是否存在一致性？通过可视化SegMiF[14]和EAEFNet[11]中用于图像融合和分割的通道特征，发现两者之间存在强相关性，如图5所示。这一观察促使我们探索视觉与语义的内在一致性，建立两任务的相互增强机制。

本文从红外-可见光模态融合（IVMF）的实际挑战出发，系统分析了图像融合与语义分割中的关键问题，并提出通过视觉与语义一致性建立耦合优化的动机。

特征中和与低光信息丢失
- 问题：红外与可见光图像的强度和梯度差异导致固定比例的无监督损失削弱对比度和纹理（特征中和），低光条件下可见光图像细节被错误丢弃（信息丢失）。
- 解决方案：动态选择优质特征（如显著对比度和纹理）作为优化目标，并通过挖掘低强度区域细节提升融合图像质量。
特征有效性评分不匹配
- 问题：传统池化注意力机制（平均池化、最大池化）因依赖全局统计，易导致正向特征被低估或负向特征被高估，造成评分误判。
- 解决方案：引入校正机制，基于特征间相互影响重新分配评分，优化注意力分配的准确性。
特征聚合不足
- 问题：跨注意力虽增强跨模态互补性，但忽视单模态信息挖掘；现有自注意力未针对融合优化，兼容性不足。
- 解决方案：结合单模态自增强与跨模态互补，形成闭环特征融合机制，提升聚合特征的表达力。
视觉与语义一致性
- 观察：图像融合（视觉特征）与语义分割（语义特征）的通道特征存在强相关性，表明视觉与语义感知存在内在一致性。
- 动机：利用这一一致性，构建相互增强的耦合框架，使视觉特征优化语义决策，语义特征反哺视觉表达。

意义：

针对IVMF中的核心技术瓶颈，提出动态优化、评分校正和闭环融合的解决方案。
通过揭示视觉与语义的内在联系，为多模态任务协同优化提供理论依据，奠定MRFS框架的创新基础。

四.方法

4.1. 概述

我们提出的MRFS框架通过IGM-Att和PC-Att模块实现特征交互，将图像融合与语义分割任务优雅地耦合为统一框架，如图6所示。 MRFS通过n个模块连续提取和精炼多模态特征。在每个模块中，编码器首先通过公式 $\Phi_{vi}^n = E_{vi}^n(\Theta_{vi}^{n-1})$ 和 $\Phi_{ir}^n = E_{ir}^n(\Theta_{ir}^{n-1})$ 进行特征提取，其中 $E_{vi}^n$ 和 $E_{ir}^n$ 分别表示可见光和红外分支的第n个编码器， $\Theta_{vi}^{n-1}$ 和 $\Theta_{ir}^{n-1}$ 表示第(n-1)个IGM-Att模块精炼的特征。

当n=1时，这些特征由可见光图像 $I_{vi}$ 和红外图像 $I_{ir}$ 初始化。接着，IGM-Att模块促进 $\Phi_{vi}^n$ 和 $\Phi_{ir}^n$ 的交互，采用CNN范式强调视觉相关的局部特征，并引入门控机制以纠正传统池化注意力的误判，从而通过 $\{\Theta_{vi}^n, \Theta_{ir}^n\} = V_n(\Phi_{vi}^n, \Phi_{ir}^n)$ 实现更有效的特征精炼，其中 $V_n(\cdot)$ 表示第n个IGM-Att的功能。此外，PC-Att模块进一步促进多模态特征的交互与聚合，侧重于需要全局理解的语义相关特征，基于Transformer范式构建特征循环传递与融合架构，聚合特征表示为 $\Omega_f^n = S_n(\Theta_{vi}^n, \Theta_{ir}^n)$ ，其中 $S_n(\cdot)$ 表示第n个PC-Att的功能。结合单模态自增强和跨模态互补， $\Omega_f^n$ 包含完整的场景描述信息。随后，IGM-Att输出与源图像输入图像融合头 F，生成融合图像：

$I_f = F(\Theta_{vi}^n, \Theta_{ir}^n, I_{vi}, I_{ir})$

其采用CNN架构，融入显著信息整合和弱化信息恢复功能，提升融合图像视觉质量。同时，PC-Att输出输入基于MLP的语义分割头 G，实现像素级分类：

$I_s = G(\Omega_f^n)$

通过图像融合与语义分割的协同优化，两者性能得以相互增强。

4.2. IGM-Att模块

IGM-Att模块将门控机制融入传统池化注意力以实现视觉补全，如图7所示。首先，采用通道和空间注意力[33]建模特征间关系。在通道注意力中， $\Phi_{vi}^n \in \mathbb{R}^{H \times W \times C}$ 和 $\Phi_{ir}^n \in \mathbb{R}^{H \times W \times C}$ 沿通道维度拼接，通过最大和平均池化降维，捕获通道响应特性。接着，MLP分别投影最大和平均响应，求和后通过Sigmoid激活生成通道注意力权重 $W_c^n \in \mathbb{R}^{2 \times 1 \times 1 \times C}$ ，形式化为： $W_c^n = \text{Sigmoid}(MLP(AP(C(\Phi_{vi}^n, \Phi_{ir}^n))) + MLP(MP(C(\Phi_{vi}^n, \Phi_{ir}^n))))$ 。

在空间注意力中，对 $\Phi_{vi}^n$ 和 $\Phi_{ir}^n$ 进行最大和平均池化，生成四张捕捉像素响应的图，沿通道拼接后通过两个卷积和Sigmoid生成空间注意力权重 $W_s^n \in \mathbb{R}^{H \times W \times 1}$ ，形式化为： $W_s^n = \text{Sigmoid}(\text{Conv}(C(AP(\Phi_{vi}^n, \Phi_{ir}^n), MP(\Phi_{vi}^n, \Phi_{ir}^n))))$ 。通过通道与空间注意力权重相乘得到混合权重 $W_{cs}^n \in \mathbb{R}^{2 \times H \times W \times C}$ ，即 $W_{cs}^n = W_c^n \times W_s^n$ 。然而，池化注意力可能导致特征有效性评分不匹配。

为此，引入门控机制校正 $W_{cs}^n$ 。具体地，先展平 $\Phi_{vi}^n$ 和 $\Phi_{ir}^n$ ，沿通道拼接后输入MLP并通过Sigmoid生成门控校正评分 $W_g^n \in \mathbb{R}^{H \times W \times C}$ ，形式化为： $W_g^n = \text{Sigmoid}(MLP(C(FL(\Phi_{vi}^n), FL(\Phi_{ir}^n))))$ 。随后，使用校正评分精炼混合权重： $W_{csg-vi}^n = W_{cs}^n[0] \times W_g^n$ 和 $W_{csg-ir}^n = W_{cs}^n[1] \times (1 - W_g^n)$ 。此策略提升特征重要性评估精度，增强有效特征并抑制冗余特征。最后，使用权重精炼特征以实现视觉补全： $\Theta_{vi}^n = \Phi_{vi}^n + W_{csg-vi}^n \times \Phi_{ir}^n$ 和 $\Theta_{ir}^n = \Phi_{ir}^n + W_{csg-ir}^n \times \Phi_{vi}^n$ 。

4.3. PC-Att模块

IGM-Att基于CNN强调局部视觉特征精炼，而语义分割需全局场景理解。因此，设计PC-Att模块实现语义补全，如图8所示。 PC-Att采用单模态自增强和跨模态互补两种策略。对于单模态自增强，从特征 $\Upsilon_X \in \mathbb{R}^{HW \times C}$ 通过线性层计算查询 $Q_X \in \mathbb{R}^{HW \times C}$ 、键 $K_X \in \mathbb{R}^{HW \times C}$ 和值 $V_X \in \mathbb{R}^{HW \times C}$ 。 $Q_X$ 查询 $K_X$ 分配评分，调制 $V_X$ 得到精炼值：

$V_{X^m} = \text{softmax}\left(\frac{Q_X K_{X^T}}{\sqrt{d_k}}\right)V_X$

随后， $V_{X^m}$ 增强 $\Upsilon_X$ ，生成改进特征 $\Upsilon_X^{\text{self}} = \text{Linear}(\Upsilon_X + V_{X^m})$ ，形式化为 $\Upsilon_X^{\text{self}} = \text{Self}(\Upsilon_X)$ 。此设计利用单模态图像的线索（如同类目标）精炼特征。但自增强能力有限，因此引入跨模态互补。以X模态特征 $\Upsilon_X$ 增强Y模态特征 $\Upsilon_Y$ 为例， $\Upsilon_Y$ 导出 $Q_Y$ ， $\Upsilon_X$ 提取 $K_X$ 和 $V_X$ 。类似自增强，计算分配评分并调制 $V_X$ ：

$V_{Y \leftarrow X^m} = \text{softmax}\left(\frac{Q_Y K_{X^T}}{\sqrt{d_k}}\right)V_X$

跨模态精炼特征为 $\Upsilon_Y^{\text{cross}} = \text{Linear}(\Upsilon_Y + V_{Y \leftarrow X^m})$ ,形式化为 $\Upsilon_Y^{\text{cross}} = \text{Cross}(\Upsilon_Y, \Upsilon_X)$ 。在PC-Att中，展平 $\Theta_{vi}^n$ 和 $\Theta_{ir}^n$ ，以闭环方式应用自增强和跨模态互补：

$\Upsilon_{vi^{\text{self}}}^{n} = \text{Self}(FL(\Theta_{vi}^n))$

$\Upsilon_{ir^{\text{cross}}}^{n} = \text{Cross}(FL(\Theta_{ir}^n), \Upsilon_{vi^{\text{self}}}^{n})$

$(\Upsilon_{ir^{\text{cross}}}^{n})^{\text{self}} = \text{Self}(\Upsilon_{ir^{\text{cross}}}^{n})$

$\Omega_f^n = (\Upsilon_{vi^{\text{self}}}^{n})^{\text{cross}} = \text{Cross}(\Upsilon_{vi^{\text{self}}}^{n}, (\Upsilon_{ir^{\text{cross}}}^{n})^{\text{self}})$

此过程将红外与可见光图像的长距离语义信息无缝整合至融合特征 $\Omega_f^n$ 。

4.4. 任务头

图像融合头：采用CNN架构，因其在低级视觉任务中生成视觉满意图像的效果[15, 20]。首先，融入弱化信息恢复功能，通过数据增强（如伽马变换、对比度拉伸）处理 $I_{vi}$ 、 $I_{ir}$ ,生成正样本 $\tilde{I}_{vi}$ 、 $\tilde{I}_{ir}$ ，恢复因弱光或低对比度丢失的信息，为优化融合图像 $I_f$ 提供指导。其次，引入显著信息整合功能，在梯度和强度域应用最大函数处理正样本，构建明确优化目标，确保显著对比度和丰富纹理的保留。整合损失定义为：

$L_{\text{inte}} = \left\| I_f - \max(I_{vi}, I_{ir}) \right\|_1 + \left\| \nabla I_f - \max(\nabla I_{vi}, \nabla I_{ir}) \right\|_1$ 。

此外，在YCbCr空间强制颜色一致性，颜色损失为：

$L_{\text{color}} = \left\| Cb_f - Cb_{vi} \right\|_1 + \left\| Cr_f - Cr_{vi} \right\|_1$

总融合损失为： $L_{\text{fusion}} = L_{\text{inte}} + L_{\text{color}}$

语义分割头：采用SegFormer[34]的MLP解码器，因其简单、轻量且有效理解全局语义。使用常规交叉熵损失约束分割： $L_{\text{seg}} = -\sum P \log I_s$ ，其中 P为标签， $I_s$ 为分割头的分类概率输出。

MRFS框架通过IGM-Att和PC-Att模块实现图像融合与语义分割的耦合优化，突破传统任务隔离局限，利用视觉与语义一致性实现相互增强。

框架概述

结构：MRFS通过n个模块迭代提取和精炼多模态特征。提取可见光和红外特征，IGM-Att精炼， PC-Att聚合特征，输入融合头和分割头生成融合图像和分割结果
创新：结合CNN-based IGM-Att（局部视觉特征）与Transformer-based PC-Att（全局语义特征），通过单模态自增强和跨模态互补确保特征完整性。

IGM-Att模块
- 功能：融合通道与空间注意力，引入门控机制校正池化注意力的评分误判。
- 机制：通道注意力通过MLP处理池化特征生成权重 ；空间注意力通过卷积生成权重；混合权重经门控校正，精炼所提取的特征
- 优势：提升视觉特征精度，抑制冗余信息，优化融合图像质量。
PC-Att模块
- 功能：基于Transformer实现语义补全，结合自增强与跨模态互补。
- 机制：自增强通过查询-键-值机制精炼单模态特征；跨模态互补利用一模态的键和值增强另一模态，闭环生成聚合特征
- 优势：整合全局语义信息，提升分割精度。
任务头
- 图像融合头：CNN架构，通过数据增强恢复弱化信息，最大函数整合显著特征，损失确保对比度、纹理和颜色一致性。
- 语义分割头：轻量MLP解码器，交叉熵损失Lseg 优化像素级分类。

五.实验

5.1. 数据集与实现细节

数据集：我们在MFNet[6]、PST900[25]和FMB[14]数据集上评估MRFS的语义分割和图像融合性能。这些数据集分别包含1569、1038和1500对红外-可见光图像尺寸分别为480×640、720×1280和600×800，测试图像对数分别为393、288和280。
实现细节：语义分割和图像融合任务联合训练500个周期，初始学习率为6e-5，批大小为3，使用Adam优化器。编码器采用SegFormer[34]的Transformer结构，模块数设为4。实验在NVIDIA GeForce RTX 3090 GPU（24GB内存）和AMD EPYC 7H12 64核处理器上进行。

5.2. 语义分割

我们与九种先进方法进行比较：SeAFusion[27]、SegFormer[34]、EGFNet[48]、LASNet[9]、SegMiF[14]、MDRNet+[45]、SGFNet[31]、MMSMCNet[50]和EAEFNet[11]。由于EGFNet和MMSMCNet的训练代码不可用，我们使用其在MFNet和PST900上的原始结果，未在FMB上重新训练。图9和10提供可视化比较（因PST900图像质量差而排除）。MRFS展现出优越的视觉分割效果，具有最佳分类精度和全面目标轮廓。例如，MRFS有效保留行人精细轮廓，呈现生动姿态，而其他方法仅能确定大致区域。表1、2、3的定量结果显示，MRFS在三个数据集上均获得最高均值交并比（mIOU），证明其在语义分割上的领先地位。

5.3. 图像融合

我们与八种先进方法比较图像融合性能：SDNet[40]、U2Fusion[35]、SeAFusion[27]、DetFusion[26]、DATFuse[29]、CDDFuse[46]、TGFuse[23]和SegMiF[14]。因PST900数据集质量低，仅在MFNet和FMB上进行比较。图11和12展示视觉结果，MRFS有效恢复弱细节，提升视觉质量。例如，图11中，MRFS改善树冠可见性并突出微弱热目标，优于其他方法。图12显示MRFS通过显著信息整合抑制红外图像中热目标周围的伪影。鉴于图像融合缺乏地面真实数据，现有参考指标因源图像退化而有偏见，因此采用非参考指标熵（EN）[24]和标准偏差（SD）[1]评估信息量和对比度。图13表明，MRFS在多数指标上得分最高，展示其先进的图像融合性能。

5.4. 消融研究

我们通过六种变体评估设计效果：模型I：用比例策略[41]替换显著信息整合；模型II：移除弱化信息恢复；模型III：用传统池化注意力[3]替换IGM-Att；模型IV：用跨注意力特征整合[47]替换PC-Att；模型V：移除图像融合头；模型VI：移除语义分割头。图14和表4显示，移除任一设计均降低语义分割性能，尤其是替换PC-Att和移除融合头导致显著下降，凸显PC-Att在多模态特征融合中的作用及融合对分割的增强。图15和16表明，移除任一设计降低图像融合性能，例如替换IGM-Att引入黑色伪影，移除分割头降低地面交通标记可见性。这些结果证实设计的有效性及语义分割的正面影响。

5.5. IGM-Att和PC-Att的应用增益

IGM-Att和PC-Att分别解决特征有效性评分不匹配和特征聚合不足问题，适用于类似MRFS的双流架构。我们将其迁移至LASNet和SGFNet，表5报告在FMB数据集上的增益：LASNet和SGFNet分别提升2.4和1.7，证明IGM-Att和PC-Att在语义分割任务上的广泛增益。

5.6. 复杂度讨论

表6量化了语义分割和图像融合方法的参数量和FLOPs（在600×800图像上测试）。MRFS在这些指标上虽非最优，但表现可接受，甚至优于某些专用方法。

5.7. 目标检测的语义验证

消融研究表明语义分割可提升图像融合性能，这是否可理解为广义语义注入？我们在LLVIP数据集[8]上生成融合结果，并用这些图像重新训练YOLO-v5检测器，评估其语义属性。每次重新训练使用400张融合图像训练，120张测试。图17和表7显示，MRFS在检测性能上优于多数方法，仅DetFusion因其目标检测驱动的融合策略表现相当。总体，MRFS有效增强融合图像的语义属性，为其他高级语义任务提供潜在价值。

MRFS实验验证通过多数据集、多任务评估，展示其在语义分割和图像融合中的卓越性能，验证了耦合优化的有效性。

实验设计
- 数据集：MFNet、PST900、FMB涵盖多样场景，测试规模合理，确保结果稳健。
- 实现：联合训练500周期，Transformer编码器（SegFormer架构），硬件支持高效计算，参数设置（如学习率6e-5、批大小3）优化收敛。
语义分割性能
- 比较：对标9种先进方法，MRFS在mIOU上全面领先，视觉结果（图9、10）显示精细轮廓和高分类精度。
- 优势：PC-Att的全局语义聚合和融合-分割耦合增强目标 delineation，尤适复杂场景。
图像融合性能
- 比较：对标8种方法，MRFS在EN和SD指标上占优，视觉结果（图11、12）展现弱细节恢复和伪影抑制能力。
- 优势：显著信息整合和弱化信息恢复优化对比度和纹理，满足人类视觉需求。
消融研究
- 验证：六变体实验确认IGM-Att、PC-Att及任务头的关键作用，移除任一均降低性能，凸显耦合机制的协同效应。
- 洞见：PC-Att对分割、融合头对视觉质量的影响最大，语义分割反哺融合图像细节。
模块迁移性
- IGM-Att和PC-Att提升LASNet和SGFNet的mIOU（2.4和1.7），证明其通用性，适配双流架构。
复杂度与应用
- 复杂度：参数量和FLOPs合理，性能-效率平衡优于部分专用方法。
- 语义验证：YOLO-v5检测实验表明MRFS融合图像富含语义信息，接近DetFusion，展现高级任务潜力。

六.结论

本文提出了一种用于红外与可见光图像融合和语义分割的耦合学习框架。通过利用视觉与语义的内在一致性，使两任务相互增强，实现双重提升。首先，将弱化信息恢复和显著信息整合融入图像融合任务，确保融合结果符合人类视觉感知。其次，IGM-Att和PC-Att模块分别解决特征有效性评分不匹配和特征聚合不足的挑战。通过级联这些模块，促进视觉相关和语义相关特征的隐式收敛，实现学习过程的相互指导，从而获得更优解。在公共数据集上的广泛实验表明，MRFS框架在视觉满意度和决策精度上均表现出色。

MRFS框架通过耦合红外-可见光图像融合与语义分割，利用视觉-语义一致性实现任务协同优化，显著提升性能。

核心创新
- 任务耦合：打破传统任务隔离，利用视觉（融合）与语义（分割）特征的内在相关性，通过相互增强提升整体效果。
- 图像融合优化：融入弱化信息恢复（挖掘低光细节）和显著信息整合（保留对比度与纹理），生成符合人类感知的高质量融合图像。
- 特征处理模块：
  - IGM-Att（CNN-based）：通过门控机制校正池化注意力的评分误判，增强视觉特征精度。
  - PC-Att（Transformer-based）：结合单模态自增强与跨模态互补，优化全局语义特征聚合。
- 特征级联：IGM-Att与PC-Att串联，使视觉与语义特征隐式对齐，互为学习先验，提升融合与分割效果。
实验验证
- 数据集：在MFNet、PST900、FMB等公共数据集上测试，覆盖多样场景，验证鲁棒性。
- 性能：MRFS在语义分割（mIOU最高）和图像融合（EN、SD指标领先）中均达SOTA，视觉结果展现精细细节与伪影抑制能力。
- 消融研究：证实模块设计的必要性，IGM-Att和PC-Att对性能提升至关重要，耦合机制显著优于孤立任务处理。
技术优势
- 高效协同：视觉特征改善分割精度，语义特征优化融合图像细节，形成闭环优化。
- 模块通用性：IGM-Att和PC-Att可迁移至其他双流架构（如LASNet），提升性能。
- 应用潜力：融合图像富含语义信息，适配目标检测等高级任务。