当前位置: 首页 > news >正文

红外与可见光图像融合的战略前沿:高影响力论文发表指南

第一章:红外与可见光图像融合的演进格局:从基础架构到新兴挑战

本章旨在构建一个全面的技术背景,追溯红外与可见光图像融合(Infrared-Visible Image Fusion, IVIF)领域从传统的信号处理方法到当前由深度学习主导的时代的技术轨迹。我们将对深度学习的基础架构进行批判性概述,并着重阐述其固有的局限性,这些局限性直接催生了后续章节将要探讨的更前沿的研究方向。

1.1 融合的必要性

多模态传感器技术的应用日益广泛,其中红外与可见光图像的融合因其信息的高度互补性而备受关注 1。红外传感器通过捕捉物体的热辐射成像,能够有效突显热源目标,且不受光照、烟雾等恶劣天气条件的影响 3。然而,其缺点在于空间分辨率较低,缺乏丰富的纹理细节 3。与之相反,可见光传感器能够捕捉高分辨率的图像,包含丰富的色彩和精细的纹理信息,更符合人类的视觉感知习惯,但其性能在弱光或恶劣天气下会急剧下降 3。
通过将这两种模态的图像进行融合,可以生成一个既包含红外图像中显著热目标,又保留可见光图像中丰富纹理细节的单一图像,从而创建出比任何单一来源都更全面、更可靠的场景表示 5。这种增强的表示能力对于人类视觉感知和下游的计算机视觉高级任务(如目标检测、语义分割、自主驾驶和军事侦察等)都具有至关重要的价值,这也凸显了该领域巨大的实际应用潜力 2。

1.2 深度学习架构分类

自2018年以来,IVIF领域已全面进入深度学习时代,涌现出大量基于神经网络的方法,它们在视觉增强方面取得了显著优于传统方法的性能 5。这些方法可以大致分为以下几类:

1.2.1 基于自编码器(AE)的方法

基于自编码器的方法通常采用编码器-解码器的范式,利用编码器提取源图像的深层特征,然后通过特定的融合策略(fusion strategy)对这些特征进行合并,最后由解码器重建出融合图像 13。这类方法标志着深度学习在IVIF领域的早期成功。然而,它们的主要局限性在于严重依赖于人工设计或相对简单的融合规则(例如,加权平均、取最大值等),这使得模型无法实现真正的端到端优化,融合策略本身不能在训练过程中自适应地学习,从而限制了其在复杂多变场景中的表现 3。

1.2.2 基于卷积神经网络(CNN)的方法

为了克服AE方法的局限性,研究人员提出了端到端的CNN模型。这些模型通过设计复杂的网络结构(如密集连接、残差连接)和精心制定的损失函数,将特征提取、特征融合和图像重建集成到一个统一的框架中,从而隐式地学习融合策略 13。CNN模型凭借其强大的局部特征提取能力,在保留图像细节方面表现出色。然而,其核心局限源于卷积操作的固有局部性。卷积核的感受野有限,使得CNN难以有效建模图像中的长距离依赖关系和全局上下文信息,这可能导致融合结果在全局结构上缺乏一致性 12。

1.2.3 基于生成对抗网络(GAN)的方法

基于GAN的方法将图像融合问题构建为一个生成器(Generator)与一个或多个判别器(Discriminator)之间的“二人零和博弈” 13。生成器的目标是产生一幅尽可能逼真的融合图像,而判别器的任务则是区分这幅融合图像与真实的源图像。通过这种对抗性训练,GAN能够强制融合图像的像素或特征分布逼近源图像的分布,从而生成具有更丰富纹理和更高视觉保真度的结果 3。为了解决单一判别器可能导致的模态偏见问题(即融合结果过分偏向红外或可见光图像),研究者们提出了双判别器甚至多判别器架构,分别对融合图像与各源图像进行约束 3。尽管GAN在提升视觉效果方面表现优异,但其训练过程的不稳定性、模式崩溃(mode collapse)以及对超参数的敏感性是众所周知的挑战 3。

1.2.4 基于Transformer的方法

为了解决CNN在全局信息建模上的不足,研究界引入了最初应用于自然语言处理领域的Transformer架构。Transformer的核心是自注意力机制(self-attention mechanism),它能够计算图像中任意两个像素之间的依赖关系,从而有效捕捉全局上下文和长距离依赖 12。早期的尝试将Transformer用于特征融合,取得了显著效果。然而,研究人员逐渐认识到,纯粹的Transformer在提取精细的局部纹理细节方面可能不如CNN。因此,当前的一个主流趋势是构建CNN-Transformer混合架构,利用CNN提取浅层和局部特征,再利用Transformer构建长距离依赖关系,以期结合两者的优势,实现局部细节与全局结构的平衡 12。这种架构上的“钟摆效应”——从聚焦局部(CNN)到聚焦全局(Transformer),再到寻求二者平衡的混合模型——揭示了图像融合领域一个根本性的张力:即同时建模精细局部纹理和高级全局上下文的需求。这不仅仅是一个简单的技术迭代,而是一种周期性的优化与精炼,预示着未来的突破性架构可能不是某种单一范式,而是能够根据图像内容和任务需求,动态、自适应地整合局部与全局特征提取器的更复杂机制。

1.3 深度学习融合中的常见失效模式与伪影

尽管深度学习方法取得了巨大成功,但在实际应用中仍存在一些共性的问题和挑战,这些问题直接构成了新研究需要解决的目标。
显著信息丢失(Loss of Salient Information):这是最常见的问题之一,表现为融合图像未能有效保留源图像的关键信息。例如,红外图像中的热目标(如行人、车辆)的对比度降低,或者可见光图像中的精细纹理(如路面标志、建筑细节)变得模糊 20。
伪影生成(Generation of Artifacts):由于源图像之间可能存在未完全配准的微小空间位移,或者融合规则设计不当,融合结果中常常会出现重影(ghosting)、边缘模糊、光晕(halos)以及不自然的颜色或亮度失真 3。
全局与局部信息处理不当:许多现有方法未能有效建立网络中局部特征与全局特征之间的紧密联系,导致融合图像在整体结构上不协调,或出现局部模糊 3。
泛化能力差:大多数模型在理想化的、封闭的、静态的数据集上进行训练和测试。然而,当这些模型被部署到真实的开放世界环境中时,它们往往会遇到分布外(Out-of-Distribution, OOD)数据,例如训练集中未曾见过的恶劣天气、光照条件或传感器类型,导致性能急剧下降 23。
下表1对上述核心深度学习架构进行了系统性的比较分析,为后续章节的讨论奠定基础。
表1:IVIF核心深度学习架构对比分析

架构
核心原理
主要优势
关键局限性与失效模式
代表性工作
自编码器 (AE)
编码器-解码器范式,用于特征提取与重建。
结构简单,能够有效提取深层特征。
依赖人工设计的融合规则,无法端到端优化,融合效果受限。
DenseFuse 24, NestFuse 24
卷积神经网络 (CNN)
利用卷积操作端到端学习特征提取、融合与重建。
强大的局部特征提取能力,端到端训练。
感受野有限,难以建模全局上下文和长距离依赖,可能导致全局结构不一致。
IFCNN 25, U2Fusion 5
生成对抗网络 (GAN)
生成器与判别器之间的对抗博弈,强制融合图像符合源图像分布。
生成的图像纹理丰富,视觉效果逼真自然。
训练不稳定,易出现模式崩溃;单一判别器可能导致模态偏见;可能产生伪影。
FusionGAN 12, DDcGAN 16
Transformer
基于自注意力机制,建模全局依赖关系。
强大的全局上下文建模能力,有效捕捉长距离依赖。
对局部细节和纹理的捕捉能力弱于CNN;计算复杂度高。
SwinFusion 12, YDTR 26

通过清晰地阐明每种主流架构范式的局限性,我们为报告后续章节中探讨的更前沿研究方向的必要性提供了直接而有力的论证,从而构建了一个连贯的叙事逻辑。

第二章:范式转变:从视觉增强到任务驱动的优化

现代IVIF研究领域最重大的演进,是从致力于创造视觉上令人愉悦的图像,转向生成能够明确优化下游高级视觉任务性能的融合表示。这一转变重新定义了融合技术的最终目标和评价标准。

2.1 重新定义“成功”:超越感知度量

长期以来,图像融合的质量主要通过一系列无参考的图像质量评价指标来衡量,例如信息熵(EN)、空间频率(SF)、结构相似性(SSIM)等。这些指标在一定程度上反映了融合图像的信息丰富度和结构保持能力。然而,越来越多的研究表明,这些传统的感知度量与下游高级任务(如目标检测、语义分割)的性能之间并不存在必然的正相关关系 27。一幅在视觉上“完美”的融合图像,未必能为后续的识别或分割算法提供最有用的信息。因此,该领域的核心共识正在形成:图像融合的最终价值在于其对下游应用的实际效用 5。
这一认知催生了“任务驱动”(task-driven)的图像融合范式。其核心思想是,融合网络的目标函数应直接或间接地受到后续任务网络性能的引导,从而生成对特定任务最优的融合表示 5。

2.2 任务驱动方法的分类

根据融合网络与任务网络之间的耦合程度,任务驱动方法可以分为以下几类:
独立优化(两阶段法):这是最直接的方法。首先,独立训练一个融合网络,通常以最大化传统图像质量指标为目标。然后,将该网络冻结,用其生成的融合图像作为输入来训练下游的任务网络 1。这种方法的关键弱点在于,融合过程是任务不可知的(task-agnostic)。它无法保证保留下来的特征正是下游任务最需要的,甚至可能在融合过程中丢失了对任务至关重要的信息。
联合优化(端到端法):在这种框架下,融合网络与任务网络被连接起来,进行端到端的联合训练。来自任务网络的损失(例如,目标检测的定位和分类损失,或语义分割的交叉熵损失)通过反向传播,直接更新融合网络的权重 1。这种机制“强迫”融合网络去生成对特定任务“有用”的图像。例如,为了提升夜间行人检测的性能,任务损失会引导融合网络更多地保留和突显红外图像中行人的热信号特征。
这种联合优化的方式实际上是一种隐式的、端到端的特征选择与加权机制。网络不再仅仅是创造一幅“更好”的图像,而是在学习一种能够根据任务需求(例如识别“人”还是“车”)动态调整融合策略的机制,判断哪种模态(红外或可见光)以及哪些特征(边缘、热信号)更为重要。这从根本上将问题从“图像融合”重构为“面向任务的表示学习”。

2.2.1 领域鸿沟的挑战

尽管联合优化思想先进,但在实践中面临一个核心挑战——“领域鸿沟”(domain gap)。图像融合是一个低级别的像素生成任务,其优化目标在于像素的强度、梯度和结构。而目标检测或语义分割是高级别的语义理解任务,其损失函数作用于抽象的特征空间。将一个高级别的、稀疏的任务损失直接反向传播到一个低级别的像素生成网络,其提供的监督信号可能非常微弱、充满噪声,甚至具有误导性。这可能导致融合图像的视觉质量下降,同时任务性能的提升也未达到预期,甚至出现两败俱伤的局面 30。为了解决这一问题,近期的工作(如HSFusion)开始探索使用领域自适应技术,例如借助CycleGAN等结构进行语义和几何域之间的转换,试图在融合任务和高级视觉任务的潜在空间中架起一座桥梁 30。

2.3 可学习与元学习损失函数的兴起

为了更优雅地解决任务驱动融合中的优化问题,研究人员提出了一个极具创新性的方向:让融合损失函数本身变得可学习。以TDFusion为代表的工作是这一方向的先驱 27。其核心思想是引入一个额外的“损失生成模块”(loss generation module),该模块是一个小型神经网络,它的输出是融合损失函数的参数(例如,用于平衡强度损失和梯度损失的权重)。
这个损失生成模块的训练遵循元学习(meta-learning)的范式:它的优化目标并非融合质量,而是下游任务损失的最小化。训练过程交替进行:首先,使用损失生成模块产生的参数构建融合损失,对融合网络进行一步或几步更新;然后,用更新后的融合网络生成的图像去计算下游任务的损失;最后,将这个任务损失反向传播,用来更新损失生成模块的参数。通过这种方式,损失生成模块学会了如何动态地生成一个“最优”的融合损失,这个损失能够引导融合网络产生最有利于下游任务的图像。这种方法使得整个融合过程高度自适应于任何下游任务,无需修改主体网络结构,代表了向通用、任务感知融合迈出的重要一步 27。

2.4 任务驱动范式下的评估体系

任务驱动范式的兴起,也对评估方法提出了新的要求。单一地比较传统融合指标已经失去了意义。一个成功的任务驱动融合模型,其性能评估应以任务为中心。这意味着,评价的主要依据应是下游任务的性能指标,例如目标检测的平均精度均值(mAP)和语义分割的平均交并比(mIoU) 38。同时,为了全面评估,也应辅以传统的融合指标作为参考。
此外,这也凸显了构建带有高级任务标注的大规模、高质量基准数据集的迫切性。诸如MSRS、M3FD和RoadScene等数据集,不仅提供了配准的红外与可见光图像对,还包含了目标检测或语义分割的标注,为任务驱动融合研究提供了宝贵的数据基础 41。
当前的研究揭示了一个新兴的“三难困境”(Trilemma):在融合图像的视觉质量、特定任务的性能以及对不同任务的泛化能力之间存在着内在的张力。过度优化任务性能可能会牺牲普适的视觉质量 44,反之亦然。同时,一个为目标检测任务优化的融合模型,在应用于语义分割时可能表现不佳。TDFusion等方法通过可学习损失函数部分缓解了这个问题,但仍需为新任务重新进行元学习训练。这预示着下一个重大突破可能在于开发一种能够以零样本(zero-shot)或少样本(few-shot)方式适应新任务的框架,例如,通过接受对任务的自然语言描述作为额外输入来动态调整融合策略。这一挑战也为下一章将要讨论的大模型驱动的融合方法提供了强有力的动机。

第三章:下一前沿:由大型模型驱动的语义与知识融合

本章将深入探讨当前最具前瞻性和潜力的研究方向:集成大规模、预训练的基础模型(foundation models),从而为融合过程注入高级语义推理和世界知识。这标志着一个根本性的范式转变——从数据驱动的模式匹配,迈向知识引导的智能合成。

3.1 为何需要大型模型?填补语义鸿沟

传统的深度学习模型,尽管在特征提取方面表现强大,但它们通常是从零开始学习,缺乏对场景内容的真实理解。它们难以捕捉图像中嵌入的高级语义信息,例如物体的类别、属性以及它们之间的相互关系 13。这导致它们的融合决策仅仅基于低级的像素统计特征,而非对场景的深刻认知。
大型视觉模型(Large Vision Models, LVMs)和多模态大型语言模型(Multimodal Large Language Models, MLLMs)的出现为解决这一问题提供了全新的途径。这些模型在海量的多模态数据上进行了预训练,其内部已经编码了关于世界的大量、泛化的知识。将这些先验知识引入到图像融合过程中,有望使融合决策从“像素级”提升到“语义级” 1。

3.2 LVMs/MLLMs作为语义向导与先验知识源

大型模型在IVIF中的应用主要体现在两个方面:作为动态的指令向导和作为静态的语义先验。

3.2.1 基于指令的引导(MLLMs)

这是一种极具创新性的方法,它将MLLM定位为一个智能的“反馈与优化”引擎。其工作流程如下:首先,融合网络生成一幅初步的融合图像;然后,将这幅图像连同一个与下游任务相关的自然语言问题(例如:“如何改进这幅图像以便更好地检测行人?”)一同输入给MLLM。MLLM利用其强大的场景理解和推理能力,分析图像并生成文本形式的优化建议(例如:“增强图像中行人的热辐射特征,同时保持背景的纹理细节”) 1。最后,这些文本建议被一个专门的模块(如“文本驱动的特征协调模块”,Text-Driven Feature Harmonization)解析,并转化为对融合网络中间特征的调制信号,从而指导下一轮的融合图像生成 1。这个过程形成了一个动态的、任务特定的闭环优化,使得融合策略能够根据高级语义指令进行灵活调整。
这一范式正在推动领域从思考“融合什么”转向思考“为何融合”。传统方法通过损失函数隐式学习融合内容(例如,融合可见光的边缘和红外的热量)。而MLLM的集成则促使模型明确地推理为何要进行某种融合选择。MLLM提供的反馈建立了一条从融合决策到任务影响的因果链(例如,“增强行人的热信号,因为这能在弱光下提升检测精度”)。这使得融合过程从纯粹的模式识别,向一种初级的视觉推理形式演进,为实现可交互、可控制的图像融合开辟了道路。

3.2.2 基于先验的引导(LVMs)

另一种方法是利用大型视觉模型提供密集的、像素级的语义先验信息,来指导融合过程。
分割先验:以OCCO框架为例,它利用了强大的零样本分割模型“Segment Anything Model”(SAM) 44。首先,通过SAM或其他目标检测模型(如Grounding DINO)在源图像上生成精确的物体掩码(masks)。这些掩码随后被用来指导一种“对象感知”的对比学习策略,从而强制融合网络保持关键物体的语义完整性。
视觉-语言先验:以CLIP为代表的视觉-语言模型,因其能够将图像和文本映射到同一个语义空间而具有巨大潜力。一些方法利用CLIP从图像的文本描述中提取语义线索,然后用这些线索来指导特征融合过程中的权重分配,从而使最终的融合结果在语义上与自然语言描述保持一致 2。

3.3 在语义空间中进行对比学习

在缺乏真值标签的IVIF任务中,由LVM提供的语义信息为对比学习(Contrastive Learning)这一强大的自监督学习范式提供了绝佳的“锚点”。OCCO框架是这一思想的杰出代表 44。其核心逻辑是:
定义正负样本:利用SAM生成的物体掩码,对于图像中的某个特定物体(例如一个行人),模型可以判断在哪种模态下其表示更优(例如,夜间的红外图像优于可见光图像)。于是,来自“优势”模态的该物体特征被视为“正样本”,而来自“劣势”模态的特征则被视为“负样本”。
对比损失:训练融合网络,使其生成的融合特征在该物体区域内,与“正样本”的特征表示在潜在空间中尽可能接近,同时与“负样本”的特征表示尽可能远离。
学习融合策略:通过在整个数据集上对不同物体的正负样本进行对比学习,融合网络最终学会了一种最优的、对象感知的融合策略,即在每个局部区域,自动倾向于保留信息更丰富、对语义表达更有利的模态特征 44。
这种方法巧妙地将高级语义先验转化为了低级特征融合的监督信号,有效解决了任务驱动融合中的领域鸿沟问题。基础模型,如CLIP或DINO,提供了一个通用的、高维的语义嵌入空间。通过将融合网络和任务网络的特征都投影到这个共享空间中,可以更有效地强制它们对齐,这比简单地反向传播一个稀疏的标量任务损失要强大得多。OCCO框架在潜在空间中运用对比学习正是这一方向的初步探索,预示着利用基础模型作为“裁判”或“通用语”,来协调融合与下游任务,将是一个极具潜力的研究方向。

第四章:先进生成模型:超越GAN的扩散与一致性模型

本章将探讨生成模型领域的最新进展,特别是从GAN向更新一代的生成模型——如扩散模型和一致性模型——的转变。这些新模型为IVIF任务带来了更稳定的训练过程、更高保真度的生成质量以及全新的技术可能性。

4.1 扩散模型的潜力

去噪扩散概率模型(Denoising Diffusion Probabilistic Models, DDPMs)是近年来生成模型领域的一大突破。其核心机制包含两个过程:一个“前向过程”,通过多步迭代向原始图像逐渐添加高斯噪声,直至其变为纯粹的随机噪声;以及一个“逆向过程”,训练一个神经网络(通常是U-Net架构)来学习如何从噪声中逐步“去噪”,最终恢复出清晰的图像 49。
与GAN相比,扩散模型具有几个显著优势:
训练稳定性:由于不存在对抗性训练,扩散模型从根本上避免了GAN中常见的模式崩溃和训练不稳定的问题 52。
生成质量与多样性:大量研究表明,扩散模型在生成图像的保真度和多样性方面通常优于同等规模的GAN 49。
在图像融合任务中,扩散模型通过将逆向去噪过程条件化于红外和可见光两幅源图像来实现。具体而言,去噪网络在每一步不仅接收当前的噪声图像,还接收源图像作为额外输入。通过这种方式,模型学会生成一个与两个输入源都保持一致的融合图像。在去噪过程中提取的中间潜在特征被认为富含全局信息,为融合提供了高质量的表示 50。
这种方法将融合问题从GAN的“分布匹配博弈”重新定义为“条件下的生成问题”。这是一种更具结构性和原则性的建模方式,它学习的是一个条件概率分布 。这种概率性的框架为量化不确定性提供了可能。例如,通过多次从不同的初始噪声开始运行逆向过程,可以生成一组可能的融合图像,从而在模态信息存在冲突的区域表达模型的不确定性。这对于安全关键型应用(如自动驾驶)来说,是一个极具价值的潜在突破。

4.2 基于扩散的融合所面临的挑战与创新

尽管扩散模型前景广阔,但将其直接应用于IVIF也面临一些挑战:
计算成本高昂:扩散模型的主要缺点是其缓慢的、迭代式的采样过程。生成一幅图像通常需要数百甚至上千次网络前向传播,这使得它们在原生形式下难以满足实时性要求较高的应用场景(如无人机、自动驾驶) 52。
原始信息损失风险:扩散模型在前向过程中向数据添加噪声的内在机制,对于一个旨在最大程度保留信息的融合任务而言,似乎是反直觉的。这个过程有可能导致源图像中的精细细节在送入去噪网络之前就已被破坏 50。
为了应对这些挑战,研究界正在积极探索创新的解决方案。例如,DCAFuse等混合架构方法被提出 50。该方法采用双分支结构:一个分支是基于扩散的模型,用于捕捉全局上下文信息;另一个分支是传统的CNN,用于高效地提取局部细节特征。然后,一个专门设计的互补特征聚合模块(complementary feature aggregation module)将这两个分支的特征进行有效融合,从而在利用扩散模型优势的同时,弥补其在局部感知和信息保持上的不足。

4.3 效率的下一站:一致性模型

为了解决扩散模型推理速度慢的问题,一致性模型(Consistency Models)作为一项最新的技术被提出。其核心思想是通过一种特殊的训练策略(“一致性蒸馏”),将一个预训练好的、需要多步采样的扩散模型“蒸馏”成一个仅需单步或极少步就能生成高质量图像的模型 52。
一致性模型有望实现与扩散模型相媲美的高生成质量,同时其推理速度可以与GAN或CNN相提并论。这使得它们成为实现高保真、实时图像融合的一个极具吸引力的研究方向。CoMo-Fusion是该领域内的开创性工作之一,它首次将一致性模型应用于IVIF任务,并通过设计新颖的损失函数来增强融合图像的纹理和显著性信息,在保持稳定训练和快速推理的同时,取得了领先的性能 52。

第五章:基础性挑战与高影响力研究的利基机遇

本章将探讨几个专业化但至关重要的研究领域。这些领域不仅触及当前方法的基础性局限,而且为产生具有高影响力的新颖贡献提供了肥沃的土壤,与顶级学术会议和期刊的关注点高度契合。

5.1 重塑监督信号:自监督学习的前沿

IVIF任务的一个核心困境是缺乏“黄金标准”的融合图像真值(ground-truth),这使得模型训练本质上是无监督或自监督的 54。因此,设计有效的自监督学习策略至关重要。
高级的代理任务(Pretext Tasks):早期的自监督方法主要依赖于简单的像素一致性损失,即要求融合图像在像素或梯度上与源图像相似。未来的研究方向应超越这一点,探索更复杂的代理任务。例如,CTFusion提出的掩码图像重建(masked image reconstruction)任务 57。在该任务中,网络被训练来重建源图像中被随机掩盖的区域,这迫使模型去学习两种模态图像更深层次的内在结构和统计规律,而不仅仅是表面的像素值。
创新的损失函数设计:设计更精巧的自监督损失函数是另一个充满机遇的方向。
对比学习:如前文所述,在LVM的引导下,对比学习能够提供强大的语义监督。更广泛地,即使没有LVM,也可以通过定义不同的“正样本”和“负样本”来应用对比学习,例如,将融合图像的某个区域特征视为锚点,将对应区域在信息更丰富的源图像中的特征视为正样本,在信息贫乏的源图像中的特征视为负样本 44。
基于频率的损失:在像素域的损失之外,引入频率域的约束是一个有效补充。例如,傅里叶谱一致性损失(Fourier spectral consistency loss)可以确保融合图像在全局频率分布上与源图像保持一致,这有助于更好地保留图像的整体结构和细节,弥补像素级损失仅关注局部一致性的不足 56。
多任务损失:将多种不同类型的损失函数(如结构相似性损失、频率一致性损失、像素强度损失)组合成一个多任务损失,可以从不同维度为网络提供更全面、更鲁棒的监督信号 56。

5.2 可解释性、鲁棒性与效率:通往实际部署之路

要将IVIF技术从实验室推向实际应用,必须解决三个关键问题:模型的可信度、在复杂环境下的可靠性以及在资源受限设备上的运行效率。
可解释性人工智能(XAI)在融合中的应用:深度学习模型的“黑箱”特性是其在自动驾驶、医疗诊断等安全关键领域应用的主要障碍。因此,为图像融合模型开发可解释性方法是一个新兴且至关重要的研究方向 58。目前的研究尚处于起步阶段,包括:1) 生成热力图(heatmaps),以可视化方式展示融合图像的每个区域主要贡献自哪个源模态 61;2) 开发类似DDFImage的算法,为单次融合决策生成局部化的、更易于理解的解释 59。
对恶劣条件与对抗性攻击的鲁棒性:
恶劣天气条件:图像融合技术在雨、雪、雾、弱光等恶劣天气条件下最能体现其价值,然而,当前绝大多数模型并未在这些条件下进行专门的训练和评估,这是一个巨大的研究空白 12。能够接受环境描述(如“有雾”)作为文本输入并自适应调整融合策略的语言引导方法,为此提供了新的解决思路 47。
对抗鲁棒性:随着融合模型被部署到安防和自动驾驶等系统中,它们抵御恶意对抗性攻击的能力变得至关重要。攻击者可能通过向输入图像添加人眼难以察觉的微小扰动,来诱导融合模型产生错误的、甚至危险的输出。目前,针对IVIF模型的对抗攻击与防御研究几乎是一片空白,这为研究人员提供了一个充满机遇的全新领域 64。开发可认证的防御方法(certified defenses)和鲁棒性训练策略将是未来的研究热点 69。
轻量化与实时模型:为了在无人机、车载计算单元等嵌入式系统上部署,模型的计算效率和内存占用是决定性的因素。对轻量化网络架构(如MobileNet、ShuffleNet的变体)、模型量化、知识蒸馏等技术的研究,对于推动IVIF技术的实际落地至关重要,但这在追求SOTA指标的学术研究中往往被忽视 70。
可解释性与鲁棒性之间存在一种潜在的共生关系。XAI方法可以揭示模型的“盲点”或其过度依赖单一不可靠模态的区域。这些信息反过来可以被用来生成有针对性的数据增强样本或对抗性样本,以进行鲁棒性训练。反之,研究模型在对抗性攻击下的失效模式,本身就是一种强有力的解释方式,能够揭示其内在的偏见和脆弱性。一个具有高影响力的研究可以提出一个将XAI和鲁棒性训练置于一个反馈循环中的框架,使两者相互促进,从而创建一种“自我修复”或“自我强化”的训练范式。

5.3 拓展至新维度与新模态

基于神经辐射场(NeRF)的3D融合:这是一个令人兴奋的前沿方向,它将2D的图像融合任务提升到了3D场景重建的维度。以Thermal-NeRF为代表的工作,首次实现了仅利用热红外图像序列来重建3D辐射场,为在视觉信息严重退化的场景(如完全黑暗)中进行3D感知提供了可能 75。将可见光NeRF与热红外NeRF进行融合,以生成同时包含几何细节和温度信息的3D模型,是一个潜力巨大的研究课题。
融合更多模态:未来的智能感知系统必然是多模态的。将IVIF的研究经验拓展到融合更多传感器数据,如激光雷达(LiDAR)、事件相机(Event Camera)和毫米波雷达(Radar),是构建全天候、全场景鲁棒感知系统的必由之路。例如,事件相机以其极高的时间分辨率和动态范围,能够有效解决运动模糊问题,并为VIF任务提供宝贵的动态信息补充 11。

第六章:综合分析与高影响力研究的战略建议

本章将对前述分析进行综合提炼,旨在为研究人员提供一份清晰的战略指南,直接回应其核心诉求:识别在红外与可见光图像融合领域最有可能在顶级学术会议和期刊上发表高影响力论文的研究方向。

6.1 关键趋势回顾

通过前文的深入分析,我们可以清晰地看到IVIF领域的几个宏观发展趋势:
目标演进:从追求视觉质量转向服务于下游任务效用。
方法演进:从依赖手工设计的传统方法和早期深度学习模型,演进到端到端学习,并进一步迈向知识引导的智能推理。
范式演进:从静态的模式匹配转向动态的、可自适应的、可解释的场景理解。

6.2 研究方向的战略评估

为了给研究人员提供一个直观的决策参考,下表2从多个维度对前文讨论的主要前沿研究方向进行了战略性评估。
表2:IVIF新兴研究方向的战略评估
研究方向
新颖性 (1-5)
SOTA提升潜力 (1-5)
技术难度 (1-5)
顶级会议/期刊相关性 (1-5)
任务驱动融合(通用)
3
5
3
5
可学习/元学习损失
4
5
5
5
MLLM引导的融合
5
5
5
5
LVM先验融合 (SAM/CLIP)
5
5
4
5
扩散/一致性模型
4
5
4
5
高级自监督学习
4
4
4
4
可解释性 (XAI)
4
3
4
4
鲁棒性 (恶劣条件/对抗)
5
4
4
5
轻量化模型
3
3
3
4
3D融合 (NeRFs)
5
5
5
5

注:评分标准为1(低)到5(高)。新颖性代表该方向的新近程度和原创性;SOTA提升潜力代表在该方向取得突破对现有技术水平的提升幅度;技术难度代表实现和实验的挑战性;相关性代表该主题与CVPR, ICCV, ECCV, IEEE TIP等顶级会议/期刊当前热点的契合度。

6.3 顶级研究建议与示例性研究问题

基于上述战略评估,我们提出以下三个具有高影响力的研究方向建议,并为每个方向提供具体的、可操作的研究问题。

6.3.1 建议一(最高风险/最高回报):统一的知识驱动融合

基本原理:该方向旨在将MLLM的指令式引导与LVM的语义先验引导相结合,创建一个统一的、由知识驱动的融合框架。它从根本上解决了领域鸿沟和任务适应性的核心挑战,代表了该领域的绝对前沿。一篇成功的论文极有可能在CVPR/ICCV等顶会上获得口头报告(Oral Presentation)的机会。
示例性研究问题:
“如何利用来自MLLM的文本反馈来动态调制从LVM(如SAM)中提取的语义先验,以实现任务自适应的、对象感知的图像融合?”
“我们能否开发一个统一的框架,其中单个模型仅通过接收描述任务和环境条件的自然语言提示,就能在无需重新训练的情况下,生成最优的融合图像?”

6.3.2 建议二(高影响力,更专注):鲁棒性感知的可解释融合

基本原理:该方向直面真实世界部署中的两大核心难题:可靠性与可信度。它将两个快速发展但仍处于初期的领域——XAI和融合鲁棒性——以一种新颖的、共生的方式结合起来。这类研究对于像IEEE TIP这样重视严谨性和实际应用价值的顶级期刊具有极强的吸引力。
示例性研究问题:
“能否将基于梯度的可解释性方法集成到一个对抗性训练循环中,以自动识别并加固融合模型针对其最显著的脆弱性?”
“如何设计一个既能对分布外数据(如雾、雨)保持鲁棒,又能为其融合策略提供解释(包括对其输出的不确定性估计)的融合架构?”

6.3.3 建议三(基础性重要):结合自监督学习的任务驱动生成模型

基本原理:该方向建立在现有强大趋势(任务驱动、生成模型、自监督)之上,但通过创新的结合来解决核心问题。例如,设计一个通过可学习的任务驱动损失(如TDFusion)进行优化,并结合新颖的、频率感知的对比学习目标来训练的扩散模型,将是一项重大的基础性贡献。
示例性研究问题:
“一个用于IVIF的扩散模型能否使用从下游目标检测任务中元学习到的损失函数进行训练?这种训练方式对融合质量和检测mAP之间的权衡有何影响?”
“对于训练一个基于扩散的融合模型,什么样的自监督代理任务能够最优地同时保留高频的纹理细节和低频的热结构信息?”

6.4 结语与展望

红外与可见光图像融合领域正处在一个激动人心的十字路口。技术的发展正推动该领域超越简单的图像预处理,迈向构建智能、自适应、可信赖的感知系统。在未来的系统中,图像融合将不再是一个孤立的步骤,而是被深度整合到一个更大的、具备推理能力的框架之中。对于有志于在此领域做出开创性贡献的研究者而言,现在正是拥抱任务驱动、知识引导和鲁棒性设计等新范式的最佳时机。选择上述任何一个前沿方向进行深入探索,都有极大的可能产出能够在顶级学术舞台上大放异彩的研究成果。
引用的著作
Infrared and visible image fusion driven by multimodal large language models - Frontiers, 访问时间为 九月 30, 2025, https://www.frontiersin.org/journals/physics/articles/10.3389/fphy.2025.1599937/full
MGFusion: a multimodal large language model-guided information perception for infrared and visible image fusion - Frontiers, 访问时间为 九月 30, 2025, https://www.frontiersin.org/journals/neurorobotics/articles/10.3389/fnbot.2024.1521603/full
Infrared and visible image fusion based on multi-level detail enhancement and generative adversarial network - OAE Publishing Inc., 访问时间为 九月 30, 2025, https://www.oaepublish.com/articles/ir.2024.30
Infrared and visible image fusion methods and applications: A survey - ResearchGate, 访问时间为 九月 30, 2025, https://www.researchgate.net/publication/323161348_Infrared_and_visible_image_fusion_methods_and_applications_A_survey
Infrared and Visible Image Fusion: From Data Compatibility to Task Adaption, 访问时间为 九月 30, 2025, https://www.computer.org/csdl/journal/tp/2025/04/10812907/22UpRNR2rYI
Infrared and Visible Image Fusion Technology and Application: A Review - PubMed, 访问时间为 九月 30, 2025, https://pubmed.ncbi.nlm.nih.gov/36679396/
Infrared and Visible Image Fusion Technology and Application: A Review - MDPI, 访问时间为 九月 30, 2025, https://www.mdpi.com/1424-8220/23/2/599
(PDF) Infrared and Visible Image Fusion Technology and Application: A Review, 访问时间为 九月 30, 2025, https://www.researchgate.net/publication/366885466_Infrared_and_Visible_Image_Fusion_Technology_and_Application_A_Review
Infrared and Visible Image Fusion: Methods, Datasets, Applications, and Prospects - MDPI, 访问时间为 九月 30, 2025, https://www.mdpi.com/2076-3417/13/19/10891
VIFB: A Visible and Infrared Image Fusion … - CVF Open Access, 访问时间为 九月 30, 2025, https://openaccess.thecvf.com/content_CVPRW_2020/papers/w6/Zhang_VIFB_A_Visible_and_Infrared_Image_Fusion_Benchmark_CVPRW_2020_paper.pdf
Multi-modal Sensor Fusion for Auto Driving Perception: A Survey - arXiv, 访问时间为 九月 30, 2025, https://arxiv.org/html/2202.02703v3
Infrared and Visible Image Fusion: From Data Compatibility to Task Adaption - arXiv, 访问时间为 九月 30, 2025, https://arxiv.org/html/2501.10761v1
MSGFusion: Multimodal Scene Graph-Guided Infrared and Visible Image Fusion - arXiv, 访问时间为 九月 30, 2025, https://arxiv.org/html/2509.12901v1
A Survey of Visible and Infrared Image Fusion Methodologies - ResearchGate, 访问时间为 九月 30, 2025, https://www.researchgate.net/publication/374433774_A_Survey_of_Visible_and_Infrared_Image_Fusion_Methodologies
The Deep Learning Methods for Fusion Infrared and Visible Images: A Survey - IIETA, 访问时间为 九月 30, 2025, https://www.iieta.org/journals/ria/paper/10.18280/ria.380221
Infrared and Visible Image Fusion via Residual Interactive Transformer and Cross-Attention Fusion - PMC, 访问时间为 九月 30, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC12299542/
Rethinking Cross-Attention for Infrared and Visible Image Fusion - arXiv, 访问时间为 九月 30, 2025, https://arxiv.org/html/2401.11675v1
DSA-Net: Infrared and Visible Image Fusion via Dual-Stream Asymmetric Network - PMC, 访问时间为 九月 30, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC10459630/
Full article: LGIFNet: an infrared and visible image fusion network with local-global frequency interaction - Taylor & Francis Online, 访问时间为 九月 30, 2025, https://www.tandfonline.com/doi/full/10.1080/10589759.2025.2512559?af=R
Infrared and Visible Image Fusion with Significant Target Enhancement - PMC, 访问时间为 九月 30, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC9689360/
Infrared and visible image fusion algorithm based on gradient attention residuals dense block - PMC, 访问时间为 九月 30, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC11622899/
Unsupervised Misaligned Infrared and Visible Image Fusion via Cross-Modality Image Generation and Registration - IJCAI, 访问时间为 九月 30, 2025, https://www.ijcai.org/proceedings/2022/0487.pdf
CrossFuse: Learning Infrared and Visible Image Fusion by Cross-Sensor Top-K Vision Alignment and Beyond - arXiv, 访问时间为 九月 30, 2025, https://arxiv.org/html/2502.14493v1
Self-supervised Segmentation Feature Alignment for Infrared and Visible Image Fusion - ICCK, 访问时间为 九月 30, 2025, https://www.icck.org/article/abs/cjif.2025.822280
STFNet: Self-Supervised Transformer for Infrared and Visible Image Fusion - OpenReview, 访问时间为 九月 30, 2025, https://openreview.net/pdf?id=EEu9krIiGp
Visible and Infrared Image Fusion Using Deep Learning - Semantic Scholar, 访问时间为 九月 30, 2025, https://www.semanticscholar.org/paper/Visible-and-Infrared-Image-Fusion-Using-Deep-Zhang-Demiris/7eab81bf2639bea44ba2514fb20e6c24ad8ba049
Task-driven Image Fusion with Learnable Fusion Loss - CVF Open Access, 访问时间为 九月 30, 2025, https://openaccess.thecvf.com/content/CVPR2025/papers/Bai_Task-driven_Image_Fusion_with_Learnable_Fusion_Loss_CVPR_2025_paper.pdf
Rethinking the Evaluation of Visible and Infrared Image Fusion - arXiv, 访问时间为 九月 30, 2025, https://arxiv.org/html/2410.06811v1
Instruction-Driven Fusion of Infrared-Visible Images: Tailoring for Diverse Downstream Tasks - arXiv, 访问时间为 九月 30, 2025, https://arxiv.org/html/2411.09387v1
HSFusion: A high-level vision task-driven infrared and visible image fusion network via semantic and geometric domain transformation - arXiv, 访问时间为 九月 30, 2025, https://arxiv.org/html/2407.10047v1
(PDF) HSFusion: A high-level vision task-driven infrared and visible image fusion network via semantic and geometric domain transformation - ResearchGate, 访问时间为 九月 30, 2025, https://www.researchgate.net/publication/382271443_HSFusion_A_high-level_vision_task-driven_infrared_and_visible_image_fusion_network_via_semantic_and_geometric_domain_transformation
[2407.10047] HSFusion: A high-level vision task-driven infrared and visible image fusion network via semantic and geometric domain transformation - arXiv, 访问时间为 九月 30, 2025, https://arxiv.org/abs/2407.10047
MetaFusion: Infrared and Visible Image Fusion via Meta-Feature Embedding From Object Detection - CVF Open Access, 访问时间为 九月 30, 2025, https://openaccess.thecvf.com/content/CVPR2023/papers/Zhao_MetaFusion_Infrared_and_Visible_Image_Fusion_via_Meta-Feature_Embedding_From_CVPR_2023_paper.pdf
(PDF) SSDFusion: A Semantic Segmentation Driven Framework for Infrared and Visible Image Fusion - ResearchGate, 访问时间为 九月 30, 2025, https://www.researchgate.net/publication/392577784_SSDFusion_A_Semantic_Segmentation_Driven_Framework_for_Infrared_and_Visible_Image_Fusion
Target-aware unregistered infrared and visible image fusion - Frontiers, 访问时间为 九月 30, 2025, https://www.frontiersin.org/journals/physics/articles/10.3389/fphy.2025.1599968/full
Task-driven Image Fusion with Learnable Fusion Loss - arXiv, 访问时间为 九月 30, 2025, https://arxiv.org/html/2412.03240v1
Task-driven Image Fusion with Learnable Fusion Loss - arXiv, 访问时间为 九月 30, 2025, https://arxiv.org/html/2412.03240v2
What are different evaluation metrics used to evaluate image segmentation models?, 访问时间为 九月 30, 2025, https://www.geeksforgeeks.org/computer-vision/what-are-different-evaluation-metrics-used-to-evaluate-image-segmentation-models/
Understanding Evaluation Metrics in Medical Image Segmentation | by Nghi Huynh | Mastering Data Science | Medium, 访问时间为 九月 30, 2025, https://medium.com/mastering-data-science/understanding-evaluation-metrics-in-medical-image-segmentation-d289a373a3f
DPACFuse: Dual-Branch Progressive Learning for Infrared and Visible Image Fusion with Complementary Self-Attention and Convolution, 访问时间为 九月 30, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC10458385/
OTCBVS Benchmark Dataset Collection - Visual Computing and Image Processing Lab – Oklahoma State University, 访问时间为 九月 30, 2025, https://vcipl-okstate.org/pbvs/bench/
Application of infrared and visible image fusion for object detection and recognition., 访问时间为 九月 30, 2025, https://www.researchgate.net/figure/Application-of-infrared-and-visible-image-fusion-for-object-detection-and-recognition_fig1_357507432
Probing Synergistic High-Order Interaction for Multi-Modal Image Fusion, 访问时间为 九月 30, 2025, https://www.computer.org/csdl/journal/tp/2025/02/10706703/20QTjSLZZmM
OCCO: LVM-guided Infrared and Visible Image Fusion Framework based on Object-aware and Contextual COntrastive Learning - ResearchGate, 访问时间为 九月 30, 2025, https://www.researchgate.net/publication/390142780_OCCO_LVM-guided_Infrared_and_Visible_Image_Fusion_Framework_based_on_Object-aware_and_Contextual_COntrastive_Learning
OCCO: LVM-guided Infrared and Visible Image Fusion Framework based on Object-aware and Contextual COntrastive Learning - arXiv, 访问时间为 九月 30, 2025, https://arxiv.org/html/2503.18635v1
[2503.18635] OCCO: LVM-guided Infrared and Visible Image Fusion Framework based on Object-aware and Contextual COntrastive Learning - arXiv, 访问时间为 九月 30, 2025, https://arxiv.org/abs/2503.18635
Language-Driven Cross-Attention for Visible–Infrared Image Fusion Using CLIP - PMC, 访问时间为 九月 30, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC12390620/
Vision–Language-Guided Adaptive Cross-Modal Fusion for Multispectral Object Detection Under Adverse Weather Conditions - IEEE Computer Society, 访问时间为 九月 30, 2025, https://www.computer.org/csdl/magazine/mu/2025/02/10829821/23i0bclXBrG
DiffV2IR: Visible-to-Infrared Diffusion Model via Vision-Language Understanding - arXiv, 访问时间为 九月 30, 2025, https://arxiv.org/html/2503.19012v1
DCAFuse: Dual-Branch Diffusion-CNN … - OpenReview, 访问时间为 九月 30, 2025, https://openreview.net/pdf/97b5eea77fa2ecbc786b0741681d11612beb64c1.pdf
TC-PDM: Temporally Consistent Patch Diffusion Models for Infrared-to-Visible Video Translation - arXiv, 访问时间为 九月 30, 2025, https://arxiv.org/html/2408.14227v1
arXiv:2405.20764v3 [cs.CV] 12 Jun 2024, 访问时间为 九月 30, 2025, https://arxiv.org/pdf/2405.20764?
arxiv.org, 访问时间为 九月 30, 2025, https://arxiv.org/abs/2301.08072
Infrared-Visible Image Fusion Based on Semantic Guidance and Visual Perception - PMC, 访问时间为 九月 30, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC9601340/
Unsupervised end-to-end infrared and visible image fusion network using learnable fusion strategy - PubMed, 访问时间为 九月 30, 2025, https://pubmed.ncbi.nlm.nih.gov/36520746/
STFNet: Self-Supervised Transformer for Infrared and Visible Image Fusion - ResearchGate, 访问时间为 九月 30, 2025, https://www.researchgate.net/publication/377649370_STFNet_Self-Supervised_Transformer_for_Infrared_and_Visible_Image_Fusion
CTFusion: CNN-transformer-based self-supervised learning for …, 访问时间为 九月 30, 2025, https://www.aimspress.com/article/doi/10.3934/mbe.2024294
Explainable AI (XAI) In Biomedical Signal and Image Processing: Promises and Challenges | Request PDF - ResearchGate, 访问时间为 九月 30, 2025, https://www.researchgate.net/publication/365121292_Explainable_AI_XAI_In_Biomedical_Signal_and_Image_Processing_Promises_and_Challenges
(PDF) Explainable analysis of infrared and visible light image fusion …, 访问时间为 九月 30, 2025, https://www.researchgate.net/publication/388121046_Explainable_analysis_of_infrared_and_visible_light_image_fusion_based_on_deep_learning
Explainable analysis of infrared and visible light image fusion based on deep learning, 访问时间为 九月 30, 2025, https://pubmed.ncbi.nlm.nih.gov/39820058/
Towards Explainable Image Fusion: Gradient-Based Heatmaps for Modal Contributions | Request PDF - ResearchGate, 访问时间为 九月 30, 2025, https://www.researchgate.net/publication/390583635_Towards_Explainable_Image_Fusion_Gradient-Based_Heatmaps_for_Modal_Contributions
Deep Camera–Radar Fusion with an Attention Framework for …, 访问时间为 九月 30, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC10383339/
AEFusion: Adaptive Enhanced Fusion of Visible and Infrared Images for Night Vision - MDPI, 访问时间为 九月 30, 2025, https://www.mdpi.com/2072-4292/17/18/3129
penghui-yang/awesome-data-poisoning-and-backdoor-attacks - GitHub, 访问时间为 九月 30, 2025, https://github.com/penghui-yang/awesome-data-poisoning-and-backdoor-attacks
Multimodal Prompt Decoupling Attack on the Safety Filters in Text-to-Image Models - arXiv, 访问时间为 九月 30, 2025, https://arxiv.org/html/2509.21360v1
arXiv:2402.03951v1 [cs.CV] 6 Feb 2024, 访问时间为 九月 30, 2025, https://arxiv.org/pdf/2402.03951
Adversarial-Guided Diffusion for Multimodal LLM Attacks - arXiv, 访问时间为 九月 30, 2025, https://arxiv.org/html/2507.23202v1
arXiv:2309.01102v1 [cs.CV] 3 Sep 2023 - SciSpace, 访问时间为 九月 30, 2025, https://scispace.com/pdf/dual-adversarial-resilience-for-collaborating-robust-31uw2i6564.pdf
COMMIT: Certifying Robustness of Multi-Sensor Fusion Systems …, 访问时间为 九月 30, 2025, https://ojs.aaai.org/index.php/AAAI/article/view/33927/36082
Faster and Better: Reinforced Collaborative Distillation and Self-Learning for Infrared-Visible Image Fusion - arXiv, 访问时间为 九月 30, 2025, https://arxiv.org/html/2509.02424v1
A review on infrared and visible image fusion algorithms based on neural networks, 访问时间为 九月 30, 2025, https://www.researchgate.net/publication/380567793_A_review_on_infrared_and_visible_image_fusion_algorithms_based_on_neural_networks
Infrared Image Super-Resolution: A Systematic Review and Future Trends - arXiv, 访问时间为 九月 30, 2025, https://arxiv.org/html/2212.12322v5
SpectraSentinel: LightWeight Dual‐Stream Real‐Time Drone Detection, Tracking and Payload Identification - arXiv, 访问时间为 九月 30, 2025, https://arxiv.org/html/2507.22650v1
Real-Time Aerial Multispectral Object Detection with Dynamic Modality-Balanced Pixel-Level Fusion - PMC, 访问时间为 九月 30, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC12115365/
Thermal-NeRF: Neural Radiance Fields from an Infrared … - Liu Liu, 访问时间为 九月 30, 2025, https://hfut-liuliu.com/assets/pdf/Thermal-NeRF.pdf
ECCV Poster Leveraging Thermal Modality to Enhance Reconstruction in Low-Light Conditions, 访问时间为 九月 30, 2025, https://eccv.ecva.net/virtual/2024/poster/1645
Thermal-NeRF: Neural Radiance Fields from an Infrared Camera - arXiv, 访问时间为 九月 30, 2025, https://arxiv.org/html/2403.10340v1
Event-based Visible and Infrared Fusion via … - CVF Open Access, 访问时间为 九月 30, 2025, https://openaccess.thecvf.com/content/CVPR2024/papers/Geng_Event-based_Visible_and_Infrared_Fusion_via_Multi-task_Collaboration_CVPR_2024_paper.pdf
Fusion of near-infrared single-photon LiDAR with visible light camera - ResearchGate, 访问时间为 九月 30, 2025, https://www.researchgate.net/publication/392472800_Fusion_of_near-infrared_single-photon_LiDAR_with_visible_light_camera
Radar and Camera Fusion for Object Detection and Tracking: A Comprehensive Survey - arXiv, 访问时间为 九月 30, 2025, https://arxiv.org/html/2410.19872v1
Multi-Modal Sensor Fusion for Proactive Blockage Prediction in mmWave Vehicular Networks - arXiv, 访问时间为 九月 30, 2025, https://arxiv.org/pdf/2507.15769?

http://www.dtcms.com/a/447237.html

相关文章:

  • 网站建设与管理试题答案做易经网站
  • 网站开发协助方案搜狗搜索引擎网页
  • 上海的设计网站建筑设计毕业设计作品
  • wps上怎么做网站点击分析表优秀品牌企业网站建设案例
  • 【数据结构与算法-Day 40】深入理解分治算法:从归并排序到快速排序的思想基石
  • 重庆长寿网站设计公司推荐安卓app开发实验报告
  • 连云港市海州区建设局网站互联网制作网站
  • 塘沽手机网站建设0基础怎么学服装设计
  • 建设银行互联网网站网站前端模板
  • 北京做网站公司有哪些金华网站建设公司哪个好
  • MTK调试-创建新工程
  • 网站平台定制开发建站快车管理
  • 怎么样建设一个电影网站如何用自己的电脑建网站
  • 基于Binder的4种RPC调用
  • WordPress设置二级域名石家庄seo代理商
  • 做美剧盗版网站广州市中智软件开发有限公司
  • 威联通NAS部署umami
  • 做游戏出租的网站合肥聚名网络科技有限公司
  • 网站后台更新为什么前台不现实免费推广软件平台seo博客
  • 论企业网站建设的好处的文献如何检测网站死链
  • 如何做网站支付接口免费源码资源源码站在线
  • 微信建设网站郑州做网站熊掌号
  • 做指甲的网站叫什么名字来着湖北立方建设工程有限公司网站
  • ps怎么网站首页seo网络推广公司
  • 自助建站源码下载电脑租赁平台哪个好
  • 西宁房地产网站建设页面设计的怎么样
  • 申请备案网站首页网站的建设有什么好处
  • 网站搭建平台demo免费做购票系统网站
  • 增城百度做网站多少钱网站的营销推广
  • 深入了解linux网络—— TCP网络通信(下)