FeatEnHancer:在低光视觉下增强目标检测及其他任务的分层特征
摘要
在低光视觉下,为下游任务提取有用的视觉线索尤其具有挑战性。先前的工作要么通过将视觉质量与机器感知相关联,要么通过设计需要在大规模合成数据集上预训练的照明退化变换方法来创建增强表示。我们认为,针对下游任务损失优化增强的图像表示可以产生更具表现力的表示。因此,在这项工作中,我们提出了一个新模块FeatEnHancer,它使用由任务相关损失函数指导的多头注意力分层地组合多尺度特征,以创建合适的表示。此外,我们的尺度内增强提高了在每个尺度或级别提取的特征的质量,并以反映它们对当前任务的相对重要性的方式组合来自不同尺度的特征。FeatEnHancer是一个通用的即插即用模块,可以集成到任何低光视觉管道中。我们通过大量实验表明,使用FeatEnHancer生成的增强表示在多个低光视觉任务中显著且一致地改善了结果,包括暗光目标检测(在ExDark上提升+5.7 mAP)、人脸检测(在DARK FACE上提升+1.5 mAP)、夜间语义分割(在ACDC上提升+5.1 mIoU)和视频目标检测(在DarkVision上提升+1.8 mAP),突显了在低光视觉下增强分层特征的有效性。

1. 引言
近年来,高级视觉任务取得了显著进展,表明给定高质量图像时,当前的视觉骨干网络[24, 19, 15, 38, 37]、目标检测器[48, 34, 49, 23, 2, 3, 57, 4, 82, 74, 76]和语义分割模型[40, 56, 67, 7, 68]可以有效地学习所需特征以执行视觉任务。类似地,现代低光图像增强(LLIE)方法[50, 78, 18, 27, 21, 31]能够将低光图像转换为视觉友好的表示。然而,当涉及到低光视觉下的高级视觉任务时,将LLIE与高级视觉方法简单结合会带来次优的收益。
本文探讨了LLIE与高级视觉方法结合性能低下的潜在原因,并观察到以下局限性:1) 尽管现有的LLIE方法在人类视觉感知方面推动了视觉感知的边界,但由于缺乏多尺度特征,它们与视觉骨干网络[24, 15, 19, 38, 37]不一致。例如,增强方法可能会增加某些区域的亮度,但同时会破坏物体的边缘和纹理信息。2) 由于在光照不足环境中的差异[21, 31, 79],不同低光图像之间的像素分布可能存在巨大差异。这在某些情况下增加了类内方差(见图3,其中[21]只识别了一辆自行车,而真实情况中有两辆自行车)。3) 当前的LLIE方法[18, 21, 31, 27, 50, 65, 78]使用增强损失函数来优化增强网络。这些损失函数迫使网络平等地关注所有像素,缺乏学习高级下游视觉任务(如目标检测中的目标姿态和形状)所需的信息细节。此外,为了训练这些增强网络,大多数方法[50, 18, 78, 65]需要一组高质量图像,这在现实世界环境中很难获得。
受这些观察的启发,并受到LLIE[21, 31]和基于视觉的骨干网络[19, 38, 37]最新进展的启发,本文旨在通过探索一种端到端可训练的方案来弥合这一差距,该方案在单个网络中联合优化增强和下游任务目标。为此,我们提出了FeatEnHancer,一个通用的特征增强器,它学习在低光设置下丰富有利于下游视觉任务的多尺度分层特征。图1展示了学习到的分层表示和增强图像的一个例子。
具体来说,我们的FeatEnHancer首先对低光RGB输入图像进行下采样,以构建多尺度分层表示。随后,将这些表示馈送到我们的特征增强网络(FEN),这是一个深度卷积网络,用于丰富尺度内语义表示。请注意,FEN的参数可以通过任务相关的损失函数进行调整,这促使FEN仅增强与任务相关的特征。这种多尺度学习允许网络分别从高分辨率和低分辨率特征中增强全局和局部信息。一旦获得不同尺度上的增强表示,剩下的障碍就是有效地融合它们。为了实现这一点,我们选择了两种不同的策略来从高分辨率和低分辨率特征中捕获全局和局部信息。首先,为了合并高分辨率特征,受[58]中多头注意力的启发,我们设计了一种尺度感知注意力特征聚合(SAFA)方法,该方法联合关注来自不同尺度的信息。其次,对于低分辨率特征,采用跳跃连接[24]方案将来自SAFA的增强表示与低分辨率特征合并。通过这些联合学习的分层特征,我们的FeatEnHancer提供了语义强大的表示,这些表示可以被先进的方法利用,例如用于目标检测[49]和实例分割[23]的特征金字塔网络[33],或用于语义分割[40]的UNet[51]。
这项工作的主要贡献可以总结如下:
- 我们提出了FeatEnHancer,一个新模块,它增强分层特征以提升低光视觉下的下游视觉任务。我们的尺度内特征增强和尺度感知注意力特征聚合方案与视觉骨干网络对齐,并产生强大的语义表示。FeatEnHancer是一个通用的即插即用模块,可以与任何高级视觉任务进行端到端训练。
- 据我们所知,这是第一个在低光场景中充分利用多尺度分层特征的工作,并泛化到多个下游视觉任务,如目标检测、语义分割和视频目标检测。
- 在涵盖图像和视频的四个不同下游视觉任务上的大量实验表明,我们的方法相对于基线、LLIE方法和任务特定的最先进方法带来了一致且显著的改进。
2. 相关工作
2.1. 低光图像增强
基于深度学习的LLIE方法侧重于提高低光图像的视觉质量以满足人类视觉感知[29, 28]。大多数LLIE方法[18, 50, 65, 78]在监督学习范式下运行,在训练期间需要配对数据。无监督的基于GAN的方法[27]在训练期间消除了对配对数据的需求。然而,它们的性能依赖于对非配对数据的仔细选择。最近,零参考方法[21, 31, 79]通过设计一组无参考损失函数,摒弃了对配对和非配对数据的需求来增强低光图像。受这些最新发展的启发,这项工作旨在通过增强多尺度分层特征来弥合低光增强和下游视觉任务(如目标检测[11, 39, 72]、语义分割[70, 54]和视频目标检测[73])之间的差距,而无需配对或非配对数据来提高性能。
2.2. 为下游视觉任务增强低光图像
这些方法在增强图像以改进下游视觉任务时,将机器感知作为成功标准。实现这一目标的一种明显方法是应用LLIE方法作为初始步骤[81, 21]。然而,这导致了不令人满意的结果(见表2、4和5)。最近,另一系列工作探索了端到端流水线,在训练期间同时优化增强和单个任务,我们的工作遵循同样的精神。
人脸检测。Liang等人[32]通过利用多曝光生成,提出了一种从低光图像中提取有效信息的方案。此外,提出了双向域适应[61, 60]和联合执行增强与检测的并行架构[43]来推进研究。然而,这些方法是专门为解决人脸检测[72, 62]而设计的,当应用于通用目标检测[60]时,带来的改进较小。相反,我们的FeatEnHancer是一个通用模块。它显著改进了多个下游视觉任务。因此,我们不将我们的方法与仅在人脸检测上评估的架构进行比较。
暗光目标检测。得益于现实世界的低光照数据集[39, 45],暗光(低光)目标检测方法[11, 36]最近兴起。IA-YOLO[36]引入了一个基于卷积神经网络(CNN)的参数预测器,用于学习在差分图像处理模块中使用的滤波器的最优配置。与我们的工作最相关的是MAET[11],它研究了低光照下的物理噪声模型和图像信号处理(ISP)流水线,并学习模型来预测退化参数和目标特征。为了避免特征纠缠,它们施加了正交切线正则性来惩罚目标和退化特征之间的余弦相似性。然而,由于[36]中特定天气的超参数和[11]中的退化参数,这些工作依赖于大型合成数据集来实现所需的性能。与它们不同,我们的FeatEnHancer通过任务相关的损失函数进行优化,不需要在任何模拟低光或恶劣天气条件的合成数据集上进行预训练。
其他高级视觉任务。除了人脸和目标检测,最近的研究还探索了高级计算机视觉任务,如语义分割[6, 40]。Xue等人[70]设计了一种对比学习策略,以同时改进视觉和机器感知,在具有对应关系的恶劣条件数据集(ACDC)[54]的夜间语义分割上取得了令人印象深刻的性能。此外,最近出现了DarkVision[73]来解决低光视觉下的视频目标检测。在这项工作中,得益于[54, 73],我们将FeatEnHancer应用于语义分割和低光视觉下的视频目标检测,以研究其泛化能力。
2.3. 学习多尺度分层特征
在不同尺度上表示物体是计算机视觉的主要困难之一。因此,该领域的工作可以追溯到手工设计特征的时代[42, 12, 44, 30]。现代目标检测器[49, 34, 2, 82, 57, 46, 76]利用多尺度特征来应对这一挑战。类似地,已经提出了多尺度表示[40]和金字塔池化方案[80]用于有效的语义分割。此外,当前基于视觉的骨干网络[19, 37, 38]的改进表明,在特征提取过程中直接学习分层特征直接提升了下游视觉任务[23, 67, 2]。然而,CNN的多尺度和分层结构在低光视觉任务中尚未得到充分探索。
在恶劣天气条件下,DENet[47]采用拉普拉斯金字塔[1]将图像分解为低频和高频分量以进行目标检测。尽管结果令人鼓舞,但DENet中的多尺度特征学习依赖于拉普拉斯金字塔,该金字塔易受噪声影响,并可能在具有高对比度或锐利边缘的区域产生不一致性。或者,与现代视觉骨干网络[33, 38, 37]中的多尺度学习保持一致,我们的FeatEnHancer采用CNN生成多尺度特征表示,这些表示通过尺度感知注意力特征聚合和跳跃连接进行融合。我们的方法更加灵活,并与下游视觉任务对齐,在多个下游视觉任务上提升了最先进的结果。
3. 提出的方法
本文的关键思想是设计一个通用的可插拔模块,该模块在低光视觉下增强机器感知,以解决多个下游视觉任务,如目标检测、语义分割和视频目标检测。FeatEnHancer的整体架构如图2所示。我们的FeatEnHancer将低光图像作为输入,并通过丰富任务相关的分层特征来自适应地提升其语义表示。我们现在详细讨论FeatEnHancer的关键组件。
3.1. 分层特征增强
受基于视觉的骨干网络[19, 37, 38]最新改进的启发,我们引入了通过联合优化特征增强和低光视觉下的下游任务来增强分层特征。与[19, 37, 38]不同,我们的目标是从低光图像中提取空间特征并生成有意义的语义表示。为了增强分层特征,我们首先从低光输入图像构建多尺度表示。然后,我们将这些多尺度表示馈送到我们的特征增强网络中。
构建多尺度表示。我们取一个低光RGB图像 I∈RH×W×3I\in\mathbb{R}^{H\times W\times 3}I∈RH×W×3 作为输入,并应用常规卷积算子 Conv(.)\mathbf{Conv}(.)Conv(.) 于 III 以生成 Iq~∈RH4×W4×3\widetilde{I_{q}}\in\mathbb{R}^{\frac{H}{4}\times\frac{W}{4}\times 3}Iq∈R4H×4W×3 和 Io∈RH8×W8×3I_{o}\in\mathbb{R}^{\frac{H}{8}\times\frac{W}{8}\times 3}Io∈R8H×8W×3,分别表示输入图像的四分之一和八分之一尺度。总结如下:
Iq=Conv(I)K=7,S=4,Io=Conv(Iq)K=3,S=2,\begin{aligned}&I_{q}=\mathbf{Conv}(I)\quad&K=7,S=4,\\&I_{o}=\mathbf{Conv}(I_{q})\quad&K=3,S=2,\\ \end{aligned}Iq=Conv(I)Io=Conv(Iq)K=7,S=4,K=3,S=2,
其中 KKK 和 SSS 表示核大小和步长,HHH、WWW 和 CCC 表示图像的高度、宽度和通道数。
特征增强网络。为了增强每个尺度的特征,我们需要一个增强网络,该网络学习增强对下游任务重要的空间信息。受低光图像增强网络[21, 31]的启发,我们设计了一个全卷积尺度内特征提取网络(FEN)。然而,与[21, 31]不同,我们的FEN在开始处引入了一个单独的卷积层,该层生成一个特征图 F∈RH×W×C′F\in\mathbb{R}^{H\times W\times C'}F∈RH×W×C′,其中 CCC 从3转换为32,同时保持分辨率 (H×W)(H\times W)(H×W) 与输入相同。然后应用一系列六个具有对称跳跃连接的卷积层,每个卷积层(K=3K=3K=3 和 S=1S=1S=1)都伴随着ReLU激活函数。我们分别在每个尺度 I,IqI,I_{q}I,Iq 和 IoI_{o}Io 上应用FEN,并获得多尺度特征表示,分别表示为 F, FqF,\;F_{q}F,Fq 和 FoF_{o}Fo。这种多尺度学习允许网络分别从高分辨率和低分辨率特征中增强全局和局部信息。因此,我们忽略下采样和批量归一化以保留相邻像素之间的语义关系,这与[21]类似。然而,我们在FEN中丢弃了DCENet[21]的最后一个卷积层,并传播来自每个尺度的最终增强特征表示以进行多尺度特征融合。请注意,FeatEnHancer中FEN的实现细节与所提出的模块无关,甚至可以应用更先进的图像增强网络(如[79])来提高性能。现在,我们详细讨论多尺度特征融合。
3.2. 多尺度特征融合
由于我们已经从FEN获得了多尺度特征表示 (F,Fq,和Fo)(F,F_{q},\mathrm{和}F_{o})(F,Fq,和Fo),剩下的障碍就是有效地融合它们。较低尺度的特征 (Fo)(F_{o})(Fo) 包含精细的细节和边缘。相反,较高分辨率的特征 (Fq)(F_{q})(Fq) 捕获更抽象的信息,例如形状和模式。因此,简单的聚合会导致性能下降(见表6a)。因此,我们采用两种不同的策略来从高分辨率和低分辨率特征中捕获全局和局部信息。首先,受[58]中多头注意力的启发,它使网络能够从不同通道联合学习信息,我们设计了一个尺度感知注意力特征聚合(SAFA)模块,该模块联合关注来自不同尺度的特征。其次,我们采用跳跃连接[24](SC)方案来集成来自 FoF_{o}Fo 的低级信息和来自SAFA的增强表示,以获得最终的增强分层表示。采用SAFA合并高分辨率特征和SC处理低分辨率特征导致更鲁棒的分层表示(见表6b)。现在,我们详细讨论SAFA。
尺度感知注意力特征聚合。尽管高分辨率特征有助于捕获精细细节,例如识别小物体,但对它们应用注意力操作在计算上是昂贵的。因此,在SAFA中,我们提出了一种高效的多尺度聚合策略,其中增强的高分辨率分层特征在注意力特征聚合之前被投影到较小的分辨率。如图2所示,SAFA使用两个卷积层(K=7,S=4;K=3,S=2K=7,S=4;K=3,S=2K=7,S=4;K=3,S=2)将 F∈RH×W×CF\in\mathbb{R}^{H\times W\times C}F∈RH×W×C 转换为 Q∈RH8×W8×CQ\in\mathbb{R}^{\frac{H}{8}\times\frac{W}{8}\times C}Q∈R8H×8W×C,并使用单个卷积层(K=3,S=2K=3,S=2K=3,S=2)将 Fq∈RH4×W4×CF_{q}\in\mathbb{R}^{\frac{H}{4}\times\frac{W}{4}\times C}Fq∈R4H×4W×C 转换为 K∈RH8×W8×CK\in\mathbb{R}^{\frac{H}{8}\times\frac{W}{8}\times C}K∈R8H×8W×C。请注意,卷积层(K=3,S=2K=3,S=2K=3,S=2)的权重不共享,因为除了缩小高分辨率特征外,它还在计算注意力权重之前充当嵌入网络。然后,QQQ 和 KKK 被连接起来形成分层特征集 Fq+kF_{q+k}Fq+k,这些特征沿着通道维度 CCC 被分割成 NNN 个块:
Fq+kn=Fq+k[:,:,(n−1)CN:nCN],F_{q+k}^{n}=F_{q+k}[:,:,(n-1)\frac{C}{N}:n\frac{C}{N}],Fq+kn=Fq+k[:,:,(n−1)NC:nNC],
其中 n∈{1,2,...,N}n\in\{1,2,...,N\}n∈{1,2,...,N} 且 NNN 是注意力块的总数。 Fq+kn↔∈RH8×W8×CN\stackrel{\leftrightarrow}{F_{q+k}^{n}}\in\mathbb{R}^{\frac{H}{8}\times\frac{W}{8}\times\frac{C}{N}}Fq+kn↔∈R8H×8W×NC 用于在单个注意力块中计算注意力权重 WWW,如下所示:
Wq+kn=Fqn⋅Fkn,W_{q+k}^{n}=F_{q}^{n}\cdot F_{k}^{n},Wq+kn=Fqn⋅Fkn,
Wˉq+kn=exp(Wq+kn)∑l=1Lexp(Wq+kn),\mathbf{\bar{W}}_{q+k}^{n}=\frac{\exp(W_{q+k}^{n})}{\sum_{l=1}^{L}\exp(W_{q+k}^{n})},Wˉq+kn=∑l=1Lexp(Wq+kn)exp(Wq+kn),
其中 Wq+knW_{q+k}^{n}Wq+kn 是第 nnn 个块中 FqnF_{q}^{n}Fqn 和 FknF_{k}^{n}Fkn 的注意力权重,Wˉq+kn\mathbf{\bar{W}}_{q+k}^{n}Wˉq+kn 是 Wq+knW_{q+k}^{n}Wq+kn 的归一化形式。从第 nnn 个块的归一化注意力权重中,我们应用加权和来计算增强分层表示的第 nnn 个块 Fˉˉhn∈RH8×W8×CN\mathbf{\bar{\bar{F}}}_{h}^{n}\in\mathbb{R}^{\frac{H}{8}\times\frac{W}{8}\times\frac{C}{N}}Fˉˉhn∈R8H×8W×NC,如下所示:
Fˉhn=∑l=1LWˉq+kn⋅Fq+kn,\mathbf{\bar{F}}_{h}^{n}=\sum_{l=1}^{L}\mathbf{\bar{W}}_{q+k}^{n}\cdot F_{q+k}^{n},Fˉhn=l=1∑LWˉq+kn⋅Fq+kn,
现在我们将所有 Fˉhn\bar{\bf F}_{h}^{n}Fˉhn 沿着通道维度连接起来以获得 Fˉh∈RH8×W8×C\mathbf{\bar{F}}_{h}\in\mathbb{R}^{\frac{H}{8}\times\frac{W}{8}\times C}Fˉh∈R8H×8W×C。请注意,尽管 Fˉh\bar{\mathbf{F}}_{h}Fˉh 的大小与 QQQ 和 KKK 相同,但它包含了更丰富的表示,涵盖了来自多尺度高分辨率特征的信息。

随后,如第3.2节前面所述,借助跳跃连接(SC),我们集成 FoF_{o}Fo 和 Fˉh\bar{\mathbf{F}}_{h}Fˉh 以获得覆盖全局和局部特征的最终增强分层表示,如图1和2所示。请注意,在跳跃连接之前,我们对 Fˉh\bar{\mathbf{F}}_{h}Fˉh 和 FoF_{o}Fo 进行了上采样,其中上采样操作 U(.)πˉ ∈πˉ RH8×∼W8×C →e−πˉ RH×W×C\stackrel{\mathbf{\bar{\pi}}}{U(.)}\;\stackrel{\mathbf{\bar{\pi}}}{\in}\;\mathbb{R}^{\frac{H}{8}\stackrel{\sim}{\times}\frac{W}{8}\times C}\;\stackrel{\mathrm{e}^{-\mathbf{\bar{\pi}}}}{\rightarrow}\;\mathbb{R}^{H\times W\times C}U(.)πˉ∈πˉR8H×∼8W×C→e−πˉRH×W×C 使用简单的双线性插值操作执行,这比使用转置卷积[16]快得多。与现有工作[21, 31, 11]中的图像增强不同,通过多尺度分层特征增强策略,我们的FeatEnHancer通过捕获局部和全局特征来学习强大的语义表示。这使其成为一个通用模块,用于增强分层特征,从而提升低光视觉下的机器感知。

4. 实验
我们进行了广泛的实验来评估所提出的FeatEnHancer模块在低光视觉下的几个下游任务上的性能,包括通用目标检测[39, 45]、人脸检测[72]、语义分割[54]和视频目标检测[73]。表1总结了所使用数据集的关键统计信息。本节首先将所提出的方法与强大的基线、现有的LLIE方法以及任务特定的最先进方法进行比较。然后,我们对我们FeatEnHancer的重要设计选择进行消融研究。我们在附录A中为每个实验提供了完整的实现细节。
4.1. 暗光目标检测
设置。对于现实数据的暗光目标检测实验,我们考虑专有的暗光(ExDark)[39]数据集(见表1)。我们采用RetinaNet[34]作为典型检测器,并采用特征化查询R-CNN [76](FQ R-CNN)作为先进的目标检测框架来报告结果。对于这两种检测器,都使用在COCO[35]上预训练的模型在每个数据集上进行微调。对于RetinaNet,图像被调整为 640×640640\times640640×640,我们使用mmdetection[5]中的1×调度(使用SGD优化器[52],初始学习率为0.001,训练12个epoch)来训练网络。对于特征化查询R-CNN,我们采用多尺度训练[4, 57, 76](较短边范围从400到800,较长边为1333)。使用ADAMW[41]优化器(初始学习率为0.0000025,权重衰减为0.0001,批量大小为8)训练FQ R-CNN 50000次迭代。请注意,对于每个目标检测框架,我们在重现我们的工作、基线、LLIE方法和任务特定最先进方法的结果时采用相同的设置。
我们将我们的FeatEnHancer与几种最先进的LLIE方法进行比较,包括KIND[78]、RAUS[50]、EnGAN[27]、MBLLEN[18]、Zero-DCE[21]、ZeroDCE++ [21]以及最先进的暗光目标检测方法MAET [11]。对于LLIE方法,所有图像都使用它们发布的检查点进行增强,然后传递给检测器。对于MAET[11],我们使用他们提出的退化流水线对检测器进行预训练,然后在两个数据集上进行微调以进行直接比较。
ExDark上的结果。表2列出了在两种目标检测框架上,LLIE工作、MAET和所提出方法的结果。很明显,我们的FeatEnHancer相对于先前的方法带来了一致且显著的收益。请注意,虽然MAET和我们的方法在RetinaNet上的性能相当(约72 AP50\mathrm{AP_{50}}AP50),但所提出的FeatEnHancer在FQ R-CNN上以显著优势优于MAET,达到了新的最先进水平 AP50\mathrm{AP_{50}}AP50 为86.3。此外,图3显示了使用FQ R-CNN作为检测器时,我们的方法和两个最佳竞争对手的四个检测示例。这些结果表明,尽管视觉质量较差,但我们的FeatEnHancer增强了有利于暗光目标检测的分层特征,产生了最先进的结果。


4.2. DARK FACE上的人脸检测
设置。DARK FACE [62, 72]是为UG²竞赛发布的一个具有挑战性的人脸检测数据集。对于DARK FACE上的实验(见表1),所有方法的图像都被调整为更大的分辨率 1500×10001500\times10001500×1000。我们采用与RetinaNet和FQ R-CNN相同的目标检测框架,并遵循与第4.1节中解释的相同的实验设置。
结果。使用RetinaNet和特征化查询R-CNN时,FeatEnHancer、MAET和六种LLIE方法的性能总结在表3中。请注意,在RetinaNet的情况下,一些LLIE方法[21, 31, 78]的结果优于我们的方法。我们认为,由于DARK FACE数据集中存在高度黑暗图像中的微小面孔,RetinaNet甚至无法从增强的分层特征中捕获信息。我们在附录B中用一个例子讨论了这种行为。另一方面,LLIE方法直接提供了光照良好的图像,在这种情况下带来了稍大的收益(+0.1 mAP50\mathrm{+0.1~mAP_{50}}+0.1 mAP50)。然而,请注意,使用更强大的检测器,我们的FeatEnHancer以显著优势(+1.5+1.5+1.5 mAP50\mathrm{mAP_{50}}mAP50)超过了所有LLIE方法和MAET,达到了69.0的mAP50。
4.3. ACDC上的夜间语义分割
设置。我们利用来自ACDC数据集[54]的夜间图像(见表1)来报告低光设置下语义分割的结果。采用DeepLabV3+ [7]作为mmseg[8]中的分割基线,以便与并行工作[70]进行直接比较。我们遵循与[70]中相同的实验设置。完整的实现细节请参考附录A。
结果。我们将我们的方法与几种最先进的LLIE方法进行比较,包括RetinexNet[63]、KIND[78]、FIDE[71]、DRBN[69]、EnGAN[27]、SSIENet[77]、ZeroDCE[21]和当前最先进的夜间语义分割方法Xue等人[70]。如表4所示,我们的FeatEnHancer在基线中带来了显著的改进,mIoU达到54.9,比先前的最佳结果高出5.1个点。此外,我们在图4中展示了与先前最佳竞争对手[70]的定性比较。显然,我们的FeatEnHancer为较大和较小的对象(例如最后一行中的地形和交通标志)提供了更准确的分割。这些结果证实了FeatEnHancer作为通用模块的有效性,在暗光目标检测和夜间语义分割中都达到了最先进的结果。


4.4. DarkVision上的视频目标检测
设置。我们将实验从静态图像扩展到视频领域,以测试我们方法的泛化能力。低光视觉下的视频目标检测在最近出现的DarkVision数据集[73](数据集详情见表1)上进行评估。尽管该数据集尚未公开,但我们衷心感谢[73]的作者及时提供了访问权限。为了在低光设置下评估我们的FeatEnHancer,我们采用低端相机分割,并在两种不同的照度水平(即0.2和3.2)上进行。对于消融研究,我们采用3.2%照度水平的分割。我们考虑SELSA[64]作为我们的基线,并在mmtracking[10]中遵循ResNet-50骨干网络的相同实验设置。为了进行直接比较,我们首先通过LLIE方法增强所有视频帧,然后将这些帧馈送到基线,如第4.1节所述。作为视频目标检测[20, 22, 64]中的常见做法,使用 mAP@IoU=0.5\mathrm{mAP@IoU=0.5}mAP@IoU=0.5 作为评估指标来报告结果。更多细节可以在附录A中找到。
结果。表5将我们的FeatEnHancer与几种LLIE方法[50, 27, 18, 78, 21, 31]和强大的视频目标检测基线[64]进行了比较。显然,我们的FeatEnHancer在照度水平为3.2和0.2的情况下,分别为基线提供了34.6 mAP和11.2 mAP的显著收益。请注意,我们的FeatEnHancer是唯一在图像和视频模态下都能提升性能的方法。相比之下,如表5所示,现有的LLIE方法不仅未能帮助基线方法,反而降低了性能。LLIE方法的这种较差泛化性表明,从领域特定的配对数据[18, 78, 50]、非配对数据[27]以及无数据的曲线估计[21, 31]中学习并不是通用增强方法的最佳解决方案。因此,需要更多的研究。
4.5. 消融研究
本节对提出的FeatEnHancer中的重要设计选择进行了消融研究,当将其插入到RetinaNet、DeeplabV3+和SELSA上时,分别在ExDark(暗光目标检测)、ACDC(夜间语义分割)和照度水平为3.2%的DarkVision(视频目标检测)上进行。
FeatEnHancer中的SAFA。提出的FeatEnHancer的重要组成部分是尺度感知注意力特征聚合(SAFA),它聚合高分辨率特征。为了验证其有效性,我们进行了多个实验,其中SAFA被简单的平均或跳跃连接(SC)[24]替换,以融合增强的多尺度特征(见第3.2节)。实验结果总结在表6a中。很明显,SAFA在ExDark上比平均和SC策略分别高出+2.3 mAP,在ACDC上高出+3.2 mIoU,在DarkVision上高出+1.5 mAP。在所有三个基准测试中的这些显著提升表明,尺度感知注意力在提出的FeatEnHancer中导致了最优的多尺度特征聚合。
多尺度特征融合。我们尝试了SAFA和SC的各种组合,以找到融合 FqF_{q}Fq 和 FoF_{o}Fo 与 FFF 的最佳设计选择(见第3.2节)。如表6b所示,当首先应用SAFA融合 FFF 和 FqF_{q}Fq,然后使用跳跃连接将 FoF_{o}Fo 与SAFA的输出合并时,性能有明显提高,达到(在ExDark上72.6 mAP,在ACDC上54.9 mIoU,在DarkVision上34.6 mAP)。因此,我们使用这种方法作为默认设置。
卷积下采样。表6c总结了在输入图像 III 上应用的不同下采样技术以生成较低分辨率 IqI_{q}Iq 和 IoI_{o}Io 的结果(见第3.1节)。我们提出的卷积下采样与最大池化、自适应平均池化[79]和双线性插值[36]相比,在ExDark上带来了+1.9 mAP,在ACDC上+3.4 mIoU,在DarkVision上+1.5 mAP的令人印象深刻的收益。这些结果证明了卷积下采样的有效性,因为它与各种视觉骨干网络[38, 19, 33]更好地对齐。
不同的尺度大小。我们在表6d中分析了生成较低分辨率时不同尺度大小的影响。例如,(2, 4) 表示输入图像 I∈RH×W×3I\in\mathbb{R}^{H\times W\times 3}I∈RH×W×3 的分辨率被降低2倍和4倍以生成 Iq∈RH2×W2×3I_{q}\in\mathbb{R}^{\frac{H}{2}\times\frac{W}{2}\times 3}Iq∈R2H×2W×3 和 Io∈RH4×W4×3I_{o}\in\mathbb{R}^{\frac{H}{4}\times\frac{W}{4}\times 3}Io∈R4H×4W×3。请注意,所有这些尺度都是通过常规卷积算子Conv(.)生成的,如公式1所述。查看表6d中的结果,在所有三个任务上,使用尺度大小(4, 8)实现了最佳性能,因此被首选为默认设置。
SAFA中的注意力块数量。表6e研究了我们的SAFA中注意力块数量 NNN 的影响。随着 NNN 的增加,所有三个任务的性能都有所提高。这表明SAFA中更多的注意力块带来了额外的收益。当 NNN 达到8时,实现了在ExDark上72.6 mAP、在ACDC上54.9 mIoU和在DarkVision上34.6 mAP的最佳性能,此后趋于饱和。因此,N=8N=8N=8 被用作默认设置。

表6:在三个基准测试上对提出的FeatEnHancer进行消融研究。(a) 我们通过用不同的聚合方法替换SAFA来研究其有效性,以融合 FFF 和 FqF_{q}Fq。(b) 我们尝试了SAFA和跳跃连接(SC)的各种组合来证明最优的设计选择。这里,(SC, SC) 表示仅使用跳跃连接来合并 FqF_{q}Fq 和 FoF_{o}Fo 与 FFF。© 除了卷积,我们还尝试了其他下采样技术来生成较低分辨率。这里,adavgpool 表示如[79]中完成的自适应平均池化。(d) 我们改变尺度大小以生成较低尺度的表示。这里,(2, 4) 表示 Iq∈RH2×W2×3I_{q}\in\mathbb{R}^{\frac{H}{2}\times\frac{W}{2}\times 3}Iq∈R2H×2W×3 和 Io∈RH4×W4×3I_{o}\in\mathbb{R}^{\frac{H}{4}\times\frac{W}{4}\times 3}Io∈R4H×4W×3。(e) 我们在FeatEnHancer的SAFA中改变注意力块的数量N。默认设置被突出显示。
5. 结论
本文提出了FeatEnHancer,一种新颖的通用特征增强模块,旨在丰富低光视觉下有利于下游任务的分层特征。我们的尺度内特征增强和尺度感知注意力特征聚合方案与视觉骨干网络对齐,并产生强大的语义表示。此外,我们的FeatEnHancer既不需要在合成数据集上进行预训练,也不依赖于增强损失函数。这些架构创新使FeatEnHancer成为一个即插即用的模块。在涵盖图像和视频的四个不同下游视觉任务上的广泛实验表明,我们的方法相对于基线、LLIE方法和任务特定的最先进方法带来了一致且显著的改进。
