当前位置：首页 > news >正文

【论文翻译】用于大感受野的小波卷积 Wavelet Convolutions for Large Receptive Fields

news 2025/11/15 9:25:06

在这里插入图片描述论文地址：Wavelet Convolutions for Large Receptive Fields
代码地址：WTConv

Abstract

近年来，已有研究尝试增大卷积神经网络（CNNs）的卷积核尺寸，以模仿视觉Transformer（ViTs）自注意力模块所具备的全局感受野。然而，这种方法很快便触及上限，在实现全局感受野之前，性能就早已趋于饱和。在本研究中，我们证明通过利用小波变换（WT），实际上能够在不出现过参数化问题的前提下获得极大的感受野。例如，对于一个 $k \times k$ 的感受野，所提方法中可训练参数的数量仅随 $k$ 呈对数增长。我们提出的名为WTConv的层，可作为即插即用的替代层应用于现有架构中，能产生有效的多频响应，且随着感受野尺寸的增大，性能可平稳提升。我们在ConvNeXt和MobileNetV2架构中对WTConv层的有效性进行了验证，涉及图像分类任务以及作为下游任务的骨干网络，结果表明该层还具备其他特性，如对图像损坏的鲁棒性，以及相比纹理更加强烈的形状响应。相关代码可在https://github.com/BGU-CS-VIL/WTConv获取。

Keywords: Wavelet Transform（小波变换） · Receptive Field （感受野） · Multi-frequency（多频率）

1. Introduction

在过去十年中，卷积神经网络（CNNs）在计算机视觉的诸多领域占据了主导地位。尽管如此，随着近年来视觉Transformer（ViTs）[12]的兴起——这是自然语言处理中所使用的Transformer架构[59]在计算机视觉领域的适应性应用，卷积神经网络面临着激烈的竞争。具体而言，视觉Transformer如今被认为优于卷积神经网络的优势，主要归功于其多头自注意力层。该层能够实现特征的全局混合，而卷积从结构上来说，仅限于特征的局部混合。因此，近年来有多项研究尝试缩小卷积神经网络与视觉Transformer之间的性能差距。Liu等人[38]对ResNet架构及其训练流程进行了重构，以追赶Swin Transformer[37]。[38]中的一项改进是增大卷积核的尺寸。然而，从经验来看，这种方法在7×7的核尺寸时就达到了饱和状态，这意味着进一步增大核尺寸并无益处，在某种程度上甚至会开始导致性能下降。虽然简单地将核尺寸增大到7×7以上并无用处，但Ding等人[11]表明，如果能更好地构建更大的核，仍能从中获益。即便如此，这些核最终还是会出现过参数化问题，并且在达到全局感受野之前，性能就早已饱和。

[11]中分析的一个有趣特性是，使用更大的核会使卷积神经网络更具形状偏向性，这意味着它们捕捉图像中低频信息的能力得到了提升。这一发现有些出人意料，因为卷积层通常倾向于对输入中的高频信息做出响应[17,19,56,61]。这与注意力头不同，正如其他研究[44,45,56]所表明的，注意力头更倾向于适应低频信息。

上述讨论引出了一个自然的问题：我们能否利用信号处理工具，在不出现过参数化问题的前提下，有效增大卷积的感受野？换句话说，我们能否使用非常大的滤波器（例如具有全局感受野的滤波器），同时仍能提升性能？本文对这个问题给出了肯定的答案。我们提出的方法利用了小波变换（WT）[9]——一种成熟的时频分析工具，来有效地扩大卷积的感受野，并且通过级联的方式，引导卷积神经网络更好地对低频信息做出响应。我们选择基于小波变换来构建解决方案的部分原因在于，与傅里叶变换等方法不同，小波变换保留了一定的空间分辨率。这使得在小波域中进行空间运算（例如卷积）更具意义。

更具体地说，我们提出了WTConv这一层，它利用级联小波变换分解，并执行一组小核卷积，每个卷积专注于输入的不同频段，且感受野逐渐增大。这一过程使我们能够更注重输入中的低频信息，同时仅增加少量可训练参数。实际上，对于 $k \times k$ 的感受野，我们的可训练参数数量仅随 $k$ 呈对数增长。这与近年来一些方法（其参数数量随 $k$ 呈二次方增长）形成鲜明对比，使我们能够获得具有前所未有的有效感受野（ERF）[40]大小的高效卷积神经网络（见图1）。

Fig 1

在这里插入图片描述

图1：采用不同深度卷积的ConvNeXt-T[38]的有效感受野[40]。显然，所提出的WTConv尽管使用更少的可训练参数，却实现了最大的感受野。这增强了卷积捕捉低频信息的能力，进而提升了其形状偏向性等优势。

我们将WTConv设计为深度卷积的即插即用替代层，可直接应用于任何给定的CNN架构中，无需额外修改。我们通过将其融入ConvNeXt[38]用于图像分类任务，验证了WTConv的有效性，展示了它在基础视觉任务中的实用价值。进一步以ConvNeXt作为骨干网络，我们将评估扩展到更复杂的应用场景：在UperNet[65]中用于语义分割，在Cascade Mask R-CNN[2]中用于目标检测。此外，我们还分析了WTConv为CNNs带来的其他优势。

综上所述，我们的核心贡献如下：

提出一种名为WTConv的新层，它利用小波变换有效增大卷积的感受野。
WTConv被设计为现有CNN中深度卷积的即插即用替代层。
大量实证评估表明，WTConv在多个关键计算机视觉任务中提升了CNNs的性能。
对WTConv在CNNs的可扩展性、鲁棒性、形状偏向性和有效感受野（ERF）方面的作用进行了分析。

2. Related Work

2.1 Wavelet Transforms in Deep Learning （深度学习中的小波变换）

小波变换（WT）[9]作为一种强大的信号处理与分析工具，自20世纪80年代起便得到了广泛应用。随着其在经典场景中的成功应用，近年来小波变换也被融入神经网络架构，用于解决各类任务。Wang等人[63]从心电图信号的时频分量中提取特征；Huang等人[32]和Guo等人[22]通过预测输入图像的小波高频系数来重建更高分辨率的输出；Duan等人[13]和Williams与Li[64]将小波变换用作卷积神经网络中的池化算子；Gal等人[16]、Guth等人[23]以及Phung等人[46]在生成模型中使用小波，以提升生成图像的视觉质量并改进计算性能；Finder等人[14]利用小波压缩特征图，使卷积神经网络更高效；Saragadam等人[51]则将小波用作隐式神经表示的激活函数。

与我们的研究更相关的是，Liu等人[35]和Alaba等人[1]在改进的U-Net架构[49]中，将小波变换用于下采样，将逆小波变换用于上采样。另一项与我们相关的研究中，Fujieda等人[15]提出了一种DenseNet类型的架构，该架构利用小波将输入中的低频信息重新引入后续层。此外，虽与小波无关，但Chen等人[3]提出在多分辨率输入上执行卷积——先将图像分离为高分辨率和低分辨率，再让网络中这两个分辨率之间进行信息交互。这些研究表明，将输入的低频分量与高频分量分开进行卷积操作，有助于获得更具信息量的特征图，这一特性也为我们的研究提供了启发。然而，[1,15,35]中的方法是高度定制化的架构，无法无缝应用于其他卷积神经网络架构，而[3]的研究重点在于计算效率。相比之下，我们提出了一种更轻量、更易用的线性层，可作为深度卷积的即插即用替代层，且能扩大感受野。重要的是，我们的方法适用于任何使用深度卷积的网络，因此不受单一任务的限制。

2.2 Large-Kernel Convolutions （大核卷积）

在卷积配置方面，VGG[52]通过使用3×3卷积为现代CNN树立了标准，它牺牲了单层级的感受野大小，以增加网络深度（从不到10层增加到约20层）。从那以后，随着计算能力的提升和架构的改进，CNN变得更深，但卷积核大小这一参数在很大程度上未被深入探索。

对传统卷积的一项重大改进是可分离卷积的引入[58, 62]。可分离卷积因Xception[5]和MobileNet[30]而得到普及，并被大多数现代架构采用[38, 50]。在这种方法中，空间卷积按通道执行（即深度卷积），而跨通道操作则使用1×1核（即点卷积）。这种卷积的分离在参数数量和运算量方面，也使得核大小与通道维度之间形成了一定程度的分离。对于核大小为k、通道数为c的空间卷积，现在仅需k²·c个参数（而非k²·c²），这使得它能更好地随k进行扩展，尽管参数仍随k呈二次方增长。

与此同时，Transformer及其非局部自注意力层被引入视觉任务[12, 37]，其性能通常优于仅进行局部特征混合的卷积。这一点，再加上前文提到的可分离卷积的近期应用，重新激发了人们对探索CNN大核卷积的兴趣。具体而言，Liu等人[38]重新审视了流行的ResNet架构[26]，包括对不同核大小的实证比较，得出结论：当核大小为7×7时，性能达到饱和。Trockman和Kolter[55]尝试仅使用卷积来模仿ViT架构，并通过使用9×9卷积替代注意力（或“混合器”）组件，取得了令人瞩目的结果。Ding等人[11]提出，简单地增大核大小会损害卷积的局部性特性。因此，他们建议将小核与大核并行使用，然后对两者的输出求和。借助这一技术，他们成功训练出核大小高达31×31的CNN。Liu等人[36]通过将核分解为一组并行的51×5和5×51核，成功将核大小增大到51×51。此外，他们还引入了稀疏性，并扩展了网络的宽度。然而，这种使用更多通道（结合稀疏性）的思路与增大核大小是相互独立的。虽然我们的工作在一定程度上从[11, 36]中汲取了灵感，但在我们的方案中，所提出的层对输入的不同频率分量的输出进行求和，从而捕捉多种感受野。

实现全局感受野的另一种方法是在傅里叶变换后的频域中进行空间混合（例如[4, 24, 47]）。然而，傅里叶变换将输入完全转换到频域表示，因此无法学习相邻像素之间的局部交互。相比之下，小波变换在将图像分解为不同频段的同时，成功保留了部分局部信息，使我们能够在不同的分解层级上进行操作。此外，基于傅里叶变换的方法往往依赖于特定的输入大小来确定权重数量，因此难以用于下游任务。一项同期研究[20]利用神经隐式函数在频域中实现高效混合。

3. Method

本节首先介绍如何利用卷积实现小波变换，然后提出我们在小波域中执行卷积的解决方案，即WTConv。我们还将阐述WTConv的理论优势，并分析其计算成本。

3.1 Preliminaries: The Wavelet Transform as Convolutions （预备知识：作为卷积的小波变换）

本研究中，我们采用 Haar 小波变换，因为它高效且简单[14,16,32]。但需要说明的是，我们的方法并不局限于 Haar 小波变换，其他小波基函数也可使用，不过会增加计算成本。

给定一幅图像 $X$ ，在一个空间维度（宽度或高度）上的一级 Haar 小波变换，是通过深度卷积实现的：先使用核 $[1,1]/2[1,1]/\sqrt{2}$ 和 $[1,−1]/2[1,-1]/\sqrt{2}$ 进行卷积，再进行因子为2的标准下采样。为实现二维 Haar 小波变换，我们在两个维度上组合该操作，最终得到一组使用步长为2的深度卷积，所用到的四个滤波器如下：
$fLL=12[1111],fLH=12[1−11−1],fHL=12[11−1−1],fHH=12[1−1−11].(1)f_{LL}=\frac{1}{2}\begin{bmatrix}1 & 1 \\1 & 1\end{bmatrix},f_{LH}=\frac{1}{2}\begin{bmatrix}1 & -1 \\1 & -1\end{bmatrix},f_{HL}=\frac{1}{2}\begin{bmatrix}1 & 1 \\-1 & -1\end{bmatrix},f_{HH}=\frac{1}{2}\begin{bmatrix}1 & -1 \\-1 & 1\end{bmatrix}.\quad(1)$

需要注意的是， $f_{LL}$ 是低通滤波器，而 $f_{LH}$ 、 $f_{HL}$ 、 $f_{HH}$ 是一组高通滤波器。对于每个输入通道，卷积的输出为：
$[XLL,XLH,XHL,XHH]=Conv([fLL,fLH,fHL,fHH],X)(2)[X_{LL},X_{LH},X_{HL},X_{HH}]=Conv\left([f_{LL},f_{LH},f_{HL},f_{HH}],X\right)\quad(2)$
该输出包含4个通道，每个通道在各个空间维度上的分辨率均为 $X$ 的一半。其中， $X_{LL}$ 是 $X$ 的低频分量， $X_{LH}$ 、 $X_{HL}$ 、 $X_{HH}$ 分别是其水平、垂直和对角高频分量。

由于式（1）中的核构成了一个正交基，逆小波变换（IWT）可通过转置卷积实现：
$X=Conv−transposed([fLL,fLH,fHL,fHH],[XLL,XLH,XHL,XHH]).X=Conv-transposed\left([f_{LL},f_{LH},f_{HL},f_{HH}],[X_{LL},X_{LH},X_{HL},X_{HH}]\right).$

级联小波分解通过对低频分量进行递归分解实现。每一级分解可表示为：
$XLL(i),XLH(i),XHL(i),XHH(i)=WT(XLL(i−1))X_{LL}^{(i)},X_{LH}^{(i)},X_{HL}^{(i)},X_{HH}^{(i)}=WT\left(X_{LL}^{(i-1)}\right)$
其中， $X_{LL}^{(0)}=X$ ， $i$ 为当前分解层级。这使得低频部分的频率分辨率提高，而空间分辨率降低。

3.2 Convolution in the Wavelet Domain （小波域中的卷积）

如2.2节所述，增大卷积层的核尺寸会导致参数数量（进而导致自由度）呈二次方增长。为缓解这一问题，我们提出如下方案：首先，利用小波变换对输入的低频和高频内容进行滤波与下采样；然后，在不同的频率图上执行小核深度卷积；最后，通过逆小波变换构建输出。换句话说，该过程可表示为：
$\quad (5)$
其中， $X$ 是输入张量， $W$ 是 $k \times k$ 深度卷积核的权重张量，其输入通道数为 $X$ 的4倍。这一操作不仅将卷积在频率分量间分离，还能让小核在原始输入的更大区域上进行运算，即增大了其相对于输入的感受野。具体示意图见图2。

Fig 2

在这里插入图片描述

图2：在小波域中执行卷积可获得更大的感受野。在该示例中，对二级小波域的低频带 $X_{LL}^{(2)}$ 执行3×3卷积，通过9个参数的卷积，便能对输入 $X$ 中12×12感受野的低频信息做出响应。

我们将这一1层级的组合操作进一步扩展，采用式（4）中的级联原理。该过程可表示为：
$XLL(i),XH(i)=WT(XLL(i−1))(6)X_{LL}^{(i)}, X_H^{(i)} = WT(X_{LL}^{(i-1)}) \quad (6)$

$YLL(i),YH(i)=Conv(W(i),(XLL(i),XH(i)))(7)Y_{LL}^{(i)}, Y_H^{(i)} = Conv(W^{(i)}, (X_{LL}^{(i)}, X_H^{(i)})) \quad (7)$
其中， $X_{LL}^{(0)}$ 是该层的输入， $X_H^{(i)}$ 代表3.1节中描述的第 $i$ 层级的所有三个高频图。

为融合不同频率的输出，我们利用了小波变换及其逆变换是线性操作这一特性，即 $I W T (X + Y) = I W T (X) + I W T (Y)$ 。因此，执行：
$Z^{(i)} = IWT(Y_{LL}^{(i)} + Z^{(i+1)}, Y_H^{(i)})$
可实现不同层级卷积结果的求和，其中 $Z^{(i)}$ 是从第 $i$ 层级开始的聚合输出。这与文献[11]的思路一致，即对两个不同尺寸卷积的输出求和作为最终输出。

与文献[11]不同的是，我们无法对每个 $Y_{LL}^{(i)}$ 、 $Y_H^{(i)}$ 单独进行归一化，因为对这些分量的单独归一化并不对应于原始域中的归一化。相反，我们发现仅通过通道维度的缩放来权衡各频率分量的贡献便已足够。图3展示了2层级小波变换下WTConv的结构。相关算法详见附录A。

Fig 3

在这里插入图片描述

图3：WTConv操作在单通道上的示例，该通道取自MobileNetV2的第三个反转残差块（见4.4节），采用2层级小波分解和3×3卷积核。

3.3 The Benefits of Using WTConv （WTConv的优势）

在特定卷积神经网络中融入WTConv主要有两大技术优势。首先，小波变换的每一层级都能增大该层的感受野，而可训练参数的数量仅小幅增加。也就是说，通过ℓ层级的级联小波频率分解，结合每个层级固定尺寸的核 $k$ ，参数数量会随层级数呈线性增长（ $ℓ⋅4⋅c⋅k2\ell \cdot 4 \cdot c \cdot k^2$ ），而感受野则呈指数增长（ $2ℓ⋅k2^\ell \cdot k$ ）。

其次，WTConv层在捕捉低频信息方面比标准卷积更具优势。这是因为对输入低频分量进行的重复小波分解会强化这些低频信息，从而增强网络层对低频分量的响应。这一特点与已有研究结论形成互补——已有研究表明卷积层通常倾向于对输入中的高频信息做出响应[19, 45]。通过在多频率输入上使用紧凑核，WTConv层将额外参数分配到最需要的地方。

除了在标准基准测试中取得更优结果外，与大核方法相比，这些技术优势还转化为网络在以下方面的提升：可扩展性更好、对图像损坏和分布偏移的鲁棒性更强，以及对形状的响应优于对纹理的响应。我们将在4.4节通过实证验证这些假设。

3.4 Computational Cost（计算成本）

深度卷积的计算成本（以浮点运算次数FLOPs计）为：
$\cdot K_{W} \cdot K_{H} \cdot N_{W} \cdot N_{H} \cdot \frac{1}{S_{W}} \cdot \frac{1}{S_{H}}$
其中， $C$ 为输入通道数， $N_{W}, N_{H})$ 为输入的空间维度， $K_{W}, K_{H})$ 为核尺寸， $S_{W}, S_{H})$ 为各维度的步长。例如，对于一个空间维度为512×512的单通道输入，使用7×7的核进行卷积会产生1280万次FLOPs，而使用31×31的核则会产生2.52亿次FLOPs。

对于WTConv的卷积操作集，每个小波域的卷积都是在空间维度缩小为原来1/2的特征图上进行的，尽管通道数是原始输入的4倍。其FLOPs计算公式为：
$\cdot K_{W} \cdot K_{H} \cdot\left(N_{W} \cdot N_{H}+\sum_{i=1}^{\ell} 4 \cdot \frac{N_{W}}{2^{i}} \cdot \frac{N_{H}}{2^{i}}\right) \quad (10)$
其中， $ℓ\ell$ 为小波变换的层级数。延续前面的例子，对于512×512的输入，使用3层级WTConv并采用5×5的核（其感受野为40×40，即 $\cdot 2^{3}) \times (5 \cdot 2^{3})$ ）进行多频率卷积，会产生1510万次FLOPs。

当然，还需要加上小波变换本身的计算成本。值得注意的是，当使用Haar小波基时，小波变换可以通过高效方式实现[14]。即便如此，若采用标准卷积操作的朴素实现方式，小波变换的FLOPs为：
$4C \cdot \sum_{i=0}^{\ell-1} \frac{N_{W}}{2^{i}} \cdot \frac{N_{H}}{2^{i}} \quad (11)$
这是因为如3.1节所述，四个核的尺寸均为2×2，在每个空间维度上的步长为2，且对每个输入通道进行操作。同理，逆小波变换的FLOPs与小波变换相同。在上述例子中，3层级的小波变换和逆小波变换会额外产生280万次FLOPs，总计1790万次FLOPs，这仍比具有相似感受野的标准深度卷积节省了大量计算成本。

4. Results

本节中，我们在多种场景下对WTConv进行了实验。首先，在4.1节中，我们基于WTConv训练并评估了用于ImageNet-1K[10]分类任务的ConvNeXt[38]。然后，在4.2节和4.3节中，我们将训练好的模型用作下游任务的骨干网络。最后，在4.4节中，我们进一步分析了WTConv对网络的作用。

4.1 ImageNet-1K Classification（ImageNet-1K分类任务）

在ImageNet-1K[10]任务中，我们以ConvNeXt[38]作为基础架构，用WTConv替代其中的7×7深度卷积。ConvNeXt作为ResNet的扩展，主要包含四个阶段，阶段之间设有下采样操作。针对输入尺寸为224×224的情况，我们将这四个阶段的WTConv层级分别设置为[5,4,3,2]，核尺寸设为5×5，以确保每个阶段都能获得全局感受野。我们采用了120轮和300轮两种训练方案（详见附录B）。

Table 1

在这里插入图片描述

表1：采用120轮训练方案在ImageNet-1k上的分类准确率。

表1展示了120轮训练方案的结果。由于所有网络均基于相同的ConvNeXt-T基础架构，我们仅报告了深度卷积（标记为D-W）的参数数量。需要说明的是，为保证对比公平性，在报告SLaK和VAN的结果时，我们仅考虑其深度核分解部分，因为我们重点对比的是增大感受野所产生的效果。值得强调的是，在得分靠前的方法中，WTConv不仅取得了最佳结果，而且参数效率最高。此外，它以不到GFNet一半的参数数量实现了全局感受野。

Table 2

在这里插入图片描述

表2：采用300轮训练方案在ImageNet-1k上的分类准确率。

表2展示了300轮训练方案的结果，我们将WTConvNeXt与Swin[37]和ConvNeXt[38]进行了对比。表1和表2均表明，在ConvNeXt中引入WTConv后，分类准确率得到显著提升，而参数和FLOPs仅略有增加。例如，从ConvNeXt-S升级到ConvNeXt-B，需要增加3900万参数和6.7 GFLOPs，准确率仅提升0.7%；而升级到WTConvNeXt-S，仅增加400万参数和0.1 GFLOPs，准确率却提升了0.5%。

4.2 Semantic Segmentation（语义分割）

我们将WTConvNeXt作为UperNet[65]的骨干网络，在ADE20K[69]语义分割任务上进行评估。UperNet的实现、训练和评估均使用MMSegmentation[7]工具包。训练过程严格遵循ConvNeXt的配置，未进行任何参数调优。对于4.1节中120轮和300轮预训练的模型，我们分别采用80K和160K迭代次数的训练方案，并通过单尺度测试报告平均交并比（mIoU）指标。
表3展示的结果显示，使用WTConv后，mIoU提升了0.3-0.6%。

Table 3 and Table 4

在这里插入图片描述

表3：使用UperNet[65]在ADE20K验证集上的结果。浮点运算次数（FLOPs）基于2048×512的输入尺寸计算。

表4：使用Cascade Mask-RCNN[2]在COCO验证集上的结果。浮点运算次数（FLOPs）基于1280×800的输入尺寸计算。

4.3 Object Detection（目标检测）

我们还将WTConvNeXt作为Cascade Mask R-CNN[2]的骨干网络，在COCO数据集[34]上进行评估。Cascade Mask R-CNN的实现、训练和评估均使用MMDetection[6]工具包。训练过程严格遵循ConvNeXt的配置，未进行任何参数调优。对于120轮和300轮预训练的模型，我们分别采用1x和3x的微调方案，并报告边界框和掩码的平均精度（AP）。

表4呈现的结果显示，性能有显著提升，边界框平均精度（APbox）和掩码平均精度（APmask）均提高了0.6-0.7%。详细结果见附录F。

4.4 WTConv Analysis (WTConv的分析)

可扩展性：我们在ImageNet-50/100/200[48,57]分类任务上进行了小规模的可扩展性分析，这些数据集是ImageNet[10]的子集，分别包含50、100和200个类别。在该实验中，我们采用MobileNetV2[50]架构，将其中的每个深度卷积分别替换为RepLK[11]、GFNet[47]、FFC[4]以及本文提出的WTConv层。WTConv的核尺寸设为3×3。对于RepLK，我们使用与其感受野最接近的核尺寸，例如，针对感受野为12×12的2层级WTConv，采用13×13的RepLK核。GFNet和FFC是基于傅里叶变换的方法。GFNet的全局滤波层每个通道需要 $\cdot w$ 个参数（其中 $(w, h)$ 为输入的空间维度），因此参数极易过冗余，尤其是在MobileNetV2中，其前几层的输入尺寸为112×112时。相比之下，FFC在不同频率间共享权重，因此不像GFNet那样直接依赖于 $(w, h)$ 。训练参数详见附录B。

Table 5

在这里插入图片描述

表5：在ImageNet-50/100/200上的分类准确率，采用MobileNetV2架构并搭配不同的深度卷积。Param./c表示每个通道的参数数量。

表5汇总的结果显示，当感受野增大时，WTConv的可扩展性优于RepLK。我们认为，这是由于RepLK层的可训练参数数量过多，而现有数据量不足以支撑其训练。

这也与文献[36]在ImageNet-1K上的研究发现一致，即单纯增大RepLK中的滤波器尺寸会对结果产生不利影响。GFNet因存在严重的过参数化问题，其结果显著下降。FFC的表现相对较好，但有限的频率混合制约了其性能。

鲁棒性：我们在ImageNet-C/C[28,43]、ImageNet-R[27]、ImageNet-A[29]和ImageNet-Sketch[60]数据集上进行了分类任务的鲁棒性评估。对于ImageNet-C，我们报告平均损坏误差；对于ImageNet-C，报告损坏误差；对于其他所有基准数据集，报告Top-1准确率。我们还在受损坏的COCO数据集[42]上评估了目标检测性能，通过平均损坏性能（mPC）和相对损坏性能（rPC）来衡量。所报告的结果均来自采用4.1节中300轮训练方案的模型，未进行任何修改或微调。

Table 6 and Table 7

在这里插入图片描述

表6：不同基准测试中分类任务对损坏的鲁棒性。ImageNet-C/ $C‾\overline{\text{C}}$ 以损坏误差衡量，ImageNet-A/R/SK以Top-1准确率衡量。

表7：目标检测任务对损坏的鲁棒性，以平均损坏性能（mPC）和相对损坏性能（rPC）衡量。

表6和表7汇总了相关结果。值得注意的是，尽管WTConvNeXt在ImageNet-1K上的准确率仅比ConvNeXt高出0.3-0.4%，但在大多数鲁棒性数据集上，其准确率提升超过1%，最高可达2.2%。在受损坏的目标检测任务中也呈现出类似趋势，这可以通过其对低频信息的响应增强来解释[33]。更详细的表格和定性示例见附录G。

形状偏向性：我们采用modelvshuman基准测试[18]来量化形状偏向性的提升程度（即基于形状而非纹理做出预测的比例）。形状偏向性的增强与人类感知特点相符，因此被认为是更理想的特性。

Fig 4

在这里插入图片描述

图4：ConvNeXt-T/S/B与WTConvNeXt-T/S/B在16个类别上的形状偏向性对比。竖线代表所有类别的平均值。

图4所示的结果证实了我们的假设：WTConv使网络更具形状偏向性，将“基于形状”决策的比例提高了8%-12%。值得注意的是，即便是规模更小的WTConvNeXt-T，其对形状的响应也优于规模更大的ConvNeXt网络，尽管后者在ImageNet-1K上的准确率更高。这极有可能是因为WTConv增强了对低频信息的关注——形状通常与低频信息相关，而纹理则与高频信息相关。定量结果详见附录E。

有效感受野：我们利用[11]提供的代码，评估了WTConv对ConvNeXt-T有效感受野（ERF）[40]的贡献。理论上，在卷积神经网络中，有效感受野与 $O(KL)O(K\sqrt{L})$ 成正比[40]，其中 $K$ 为核尺寸， $L$ 为网络深度。然而，由于我们引入小波变换是为了在使用更小核的同时增大感受野，因此我们认为，当将 $K$ 视为该层所产生的感受野大小时，这一关系仍然成立。

有效感受野的实证评估过程如下：从ImageNet验证集中随机抽取50张图像，将其调整为1024×1024的尺寸；然后，针对每张图像，通过梯度计算每个像素对最后一层生成的特征图中心点的贡献。结果如图1所示，贡献度高的像素显示得更亮。我们发现，尽管WTConv的参数少于RepLK和SLaK，但它具有近乎全局的有效感受野。

消融实验：我们开展了消融实验，旨在探究WTConv层的不同配置对最终结果的影响。按照4.1节所述，我们在ImageNet-1K上以多种配置训练WTConvNeXt-T，训练周期为120轮。首先，我们测试了不同小波变换层级与核尺寸的组合——需要说明的是，对于224×224的输入，ConvNeXt的卷积操作分别作用于分辨率为56×56、28×28、14×14、7×7的输入上，因此对应的最大小波变换层级分别为5、4、3、2。其次，我们通过每次仅使用高频或低频分量集中的一组进行卷积，评估了高频和低频分量的作用。最后，我们使用不同的小波基函数训练模型。

Table 8

在这里插入图片描述

表8：WTConvNeXt-T的消融实验。对比WTConv的不同配置。

表8展示了所有上述配置的结果。从中可以看出，增加层级和核尺寸在大多数情况下是有益的。我们还发现，单独使用每个频段都能提升模型性能，但同时使用两者效果更优。结果表明，Haar小波变换已足够满足需求，不过探索其他小波基函数可能会进一步提升性能，这一点我们将留待未来研究。

5. Limitations

尽管WTConv层不需要太多的浮点运算（FLOPs），但在现有框架中其运行时间可能相对较长。这是由于多次连续操作（小波变换-卷积-逆小波变换）存在额外开销，这种开销可能比计算本身的成本更高。不过，我们注意到这一问题可以通过专门的实现方式得到缓解，例如在每个层级中并行执行小波变换与卷积以减少内存读取，或者原地执行小波变换和逆小波变换以减少内存分配。更多实现细节详见附录C。

6. Conclusion

在本研究中，我们利用小波变换提出了WTConv，这是一种可作为深度卷积的即插即用替代层，能够获得更大的感受野，并更好地捕捉输入中的低频信息。借助WTConv，我们可以通过纯卷积的方式实现全局感受野的空间混合。实证结果表明，WTConv显著增大了卷积神经网络的有效感受野，提升了其形状偏向性，增强了网络对损坏的鲁棒性，并在多种视觉任务中取得了更优的性能。

Acknowledgements（致谢）

本研究工作部分得到以下机构和项目的支持：本古里安大学计算机科学系林恩与威廉·弗兰克尔中心、以色列科学基金会个人基金（编号360/21），以及以色列高等教育委员会（CHE）通过本古里安大学数据科学研究中心提供的资助。S.E.F.的研究还得到了克雷特曼高级研究生院和本古里安大学高科技奖学金的支持。

References

参考文献

Alaba, S.Y., Ball, J.E.: 《Wcnn3d: Wavelet convolutional neural network-based 3d object detection for autonomous driving》（基于小波卷积神经网络的自动驾驶3D目标检测）. Sensors 22(18), 7010 (2022)
Cai, Z., Vasconcelos, N.: 《Cascade r-cnn: high quality object detection and instance segmentation》（Cascade R-CNN：高质量目标检测与实例分割）. IEEE transactions on pattern analysis and machine intelligence 43(5), 1483–1498 (2019)
Chen, Y., Fan, H., Xu, B., Yan, Z., Kalantidis, Y., Rohrbach, M., Yan, S., Feng, J.: 《Drop an octave: Reducing spatial redundancy in convolutional neural networks with octave convolution》（降阶八度：利用八度卷积减少卷积神经网络中的空间冗余）. In: Proceedings of the IEEE/CVF international conference on computer vision. pp. 3435–3444 (2019)
Chi, L., Jiang, B., Mu, Y.: 《Fast fourier convolution》（快速傅里叶卷积）. Advances in Neural Information Processing Systems 33, 4479–4488 (2020)
Chollet, F.: 《Xception: Deep learning with depthwise separable convolutions》（Xception：基于深度可分离卷积的深度学习）. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 1251–1258 (2017)
Contributors, M.: 《MMDetection: Openmmlab detection toolbox and benchmark》（MMDetection：OpenMMLab检测工具包与基准测试）. https://github.com/open-mmlab/mmdetection (2018)
Contributors, M.: 《MMSegmentation: Openmmlab semantic segmentation toolbox and benchmark》（MMSegmentation：OpenMMLab语义分割工具包与基准测试）. https://github.com/open-mmlab/mmsegmentation (2020)
Cubuk, E.D., Zoph, B., Shlens, J., Le, Q.V.: 《Randaugment: Practical automated data augmentation with a reduced search space》（Randaugment：具有缩减搜索空间的实用自动化数据增强方法）. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops. pp. 702–703 (2020)
Daubechies, I.: 《Ten lectures on wavelets》（小波十讲）. SIAM (1992)
Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: 《Imagenet: A large-scale hierarchical image database》（ImageNet：大规模层次化图像数据库）. In: 2009 IEEE conference on computer vision and pattern recognition. pp. 248–255. Ieee (2009)
Ding, X., Zhang, X., Han, J., Ding, G.: 《Scaling up your kernels to 31x31: Revisiting large kernel design in cnns》（将核尺寸扩展至31x31：重新审视CNN中的大核设计）. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 11963–11975 (2022)
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., Houlsby, N.: 《An image is worth 16x16 words: Transformers for image recognition at scale》（一图胜千言：用于大规模图像识别的Transformer）. In: International Conference on Learning Representations (2021)
Duan, Y., Liu, F., Jiao, L., Zhao, P., Zhang, L.: 《SAR image segmentation based on convolutional-wavelet neural network and markov random field》（基于卷积-小波神经网络与马尔可夫随机场的SAR图像分割）. Pattern Recognition 64, 255–267 (2017)
Finder, S.E., Zohav, Y., Ashkenazi, M., Treister, E.: 《Wavelet feature maps compression for image-to-image cnns》（用于图像到图像CNN的小波特征图压缩）. In: Advances in Neural Information Processing Systems (2022)
16 S.E. Finder et al.
Fujieda, S., Takayama, K., Hachisuka, T.: 《Wavelet convolutional neural networks》（小波卷积神经网络）. arXiv preprint arXiv:1805.08620 (2018)
Gal, R., Hochberg, D.C., Bermano, A., Cohen-Or, D.: 《Swagan: A style-based wavelet-driven generative model》（Swagan：基于风格的小波驱动生成模型）. ACM Transactions on Graphics (TOG) 40(4), 1–11 (2021)
Gavrikov, P., Keuper, J.: 《Can biases in imagenet models explain generalization?》（ImageNet模型中的偏差能否解释泛化能力？）. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 22184–22194 (2024)
Geirhos, R., Narayanappa, K., Mitzkus, B., Thieringer, T., Bethge, M., Wichmann, F.A., Brendel, W.: 《Partial success in closing the gap between human and machine vision》（在缩小人类与机器视觉差距方面的部分成果）. In: Advances in Neural Information Processing Systems 34 (2021)
Geirhos, R., Rubisch, P., Michaelis, C., Bethge, M., Wichmann, F.A., Brendel, W.: 《Imagenet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness》（ImageNet训练的CNN偏向于纹理；增强形状偏向性可提高准确率和鲁棒性）. In: International Conference on Learning Representations (2019)
Grabinski, J., Keuper, J., Keuper, M.: 《As large as it gets – studying infinitely large convolutions via neural implicit frequency filters》（尽可能大——通过神经隐式频率滤波器研究无限大卷积）. Transactions on Machine Learning Research (2024)
Guo, M.H., Lu, C.Z., Liu, Z.N., Cheng, M.M., Hu, S.M.: 《Visual attention network》（视觉注意力网络）. Computational Visual Media 9(4), 733–752 (2023)
Guo, T., Seyed Mousavi, H., Huu Vu, T., Monga, V.: 《Deep wavelet prediction for image super-resolution》（用于图像超分辨率的深度小波预测）. In: Proceedings of the IEEE conference on computer vision and pattern recognition workshops. pp. 104–113 (2017)
Guth, F., Coste, S., De Bortoli, V., Mallat, S.: 《Wavelet score-based generative modeling》（基于小波分数的生成建模）. In: Advances in Neural Information Processing Systems (2022)
Haber, E., Lensink, K., Treister, E., Ruthotto, L.: 《IMEXnet a forward stable deep neural network》（IMEXnet：一种前向稳定的深度神经网络）. In: Proceedings of the 36th International Conference on Machine Learning (2019)
Han, K., Wang, Y., Tian, Q., Guo, J., Xu, C., Xu, C.: 《Ghostnet: More features from cheap operations》（GhostNet：通过低成本操作获取更多特征）. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 1580–1589 (2020)
He, K., Zhang, X., Ren, S., Sun, J.: 《Deep residual learning for image recognition》（用于图像识别的深度残差学习）. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 770–778 (2016)
Hendrycks, D., Basart, S., Mu, N., Kadavath, S., Wang, F., Dorundo, E., Desai, R., Zhu, T., Parajuli, S., Guo, M., Song, D., Steinhardt, J., Gilmer, J.: 《The many faces of robustness: A critical analysis of out-of-distribution generalization》（鲁棒性的多面性：分布外泛化的批判性分析）. In: Proceedings of the IEEE international conference on computer vision (2021)
Hendrycks, D., Dietterich, T.: 《Benchmarking neural network robustness to common corruptions and perturbations》（神经网络对常见损坏和扰动的鲁棒性基准测试）. In: Proceedings of the International Conference on Learning Representations (2019)
Hendrycks, D., Zhao, K., Basart, S., Steinhardt, J., Song, D.: 《Natural adversarial examples》（自然对抗样本）. In: Proceedings of the IEEE conference on computer vision and pattern recognition (2021)
Howard, A.G., Zhu, M., Chen, B., Kalenichenko, D., Wang, W., Weyand, T., Andreetto, M., Adam, H.: 《Mobilenets: Efficient convolutional neural networks for mobile vision applications》（MobileNets：适用于移动视觉应用的高效卷积神经网络）. arXiv preprint arXiv:1704.04861 (2017)
Huang, G., Sun, Y., Liu, Z., Sedra, D., Weinberger, K.Q.: 《Deep networks with stochastic depth》（具有随机深度的深度网络）. In: Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11–14, 2016, Proceedings, Part IV 14. pp. 646–661. Springer (2016)
Wavelet Convolutions for Large Receptive Fields 17
Huang, H., He, R., Sun, Z., Tan, T.: 《Wavelet-srnet: A wavelet-based cnn for multi-scale face super resolution》（Wavelet-SRNet：一种基于小波的多尺度人脸超分辨率CNN）. In: Proceedings of the IEEE International Conference on Computer Vision. pp. 1689–1697 (2017)
Li, Z., Ortega Caro, J., Rusak, E., Brendel, W., Bethge, M., Anselmi, F., Patel, A.B., Tolias, A.S., Pitkow, X.: 《Robust deep learning object recognition models rely on low frequency information in natural images》（鲁棒的深度学习目标识别模型依赖于自然图像中的低频信息）. PLOS Computational Biology (2023)
Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., Zitnick, C.L.: 《Microsoft coco: Common objects in context》（Microsoft COCO：场景中的常见目标）. In: European conference on computer vision. pp. 740–755. Springer (2014)
Liu, P., Zhang, H., Zhang, K., Lin, L., Zuo, W.: 《Multi-level wavelet-cnn for image restoration》（用于图像恢复的多级小波CNN）. In: Conference on Computer Vision and Pattern Recognition workshops. pp. 773–782 (2018)
Liu, S., Chen, T., Chen, X., Chen, X., Xiao, Q., Wu, B., Pechenizkiy, M., Mocanu, D., Wang, Z.: 《More convnets in the 2020s: Scaling up kernels beyond 51x51 using sparsity》（2020年代更多的CNN：利用稀疏性将核扩展至51x51以上）. In: International Conference on Learning Representations (2023)
Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., Guo, B.: 《Swin transformer: Hierarchical vision transformer using shifted windows》（Swin Transformer：使用移位窗口的层次化视觉Transformer）. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 10012–10022 (2021)
Liu, Z., Mao, H., Wu, C.Y., Feichtenhofer, C., Darrell, T., Xie, S.: 《A convnet for the 2020s》（2020年代的卷积网络）. In: Conference on Computer Vision and Pattern Recognition (2022)
Loshchilov, I., Hutter, F.: 《Decoupled weight decay regularization》（解耦权重衰减正则化）. arXiv preprint arXiv:1711.05101 (2017)
Luo, W., Li, Y., Urtasun, R., Zemel, R.: 《Understanding the effective receptive field in deep convolutional neural networks》（理解深度卷积神经网络中的有效感受野）. Advances in neural information processing systems 29 (2016)
maintainers, T., contributors: 《Torchvision: Pytorch’s computer vision library》（Torchvision：PyTorch的计算机视觉库）. https://github.com/pytorch/vision (2016)
Michaelis, C., Mitzkus, B., Geirhos, R., Rusak, E., Bringmann, O., Ecker, A.S., Bethge, M., Brendel, W.: 《Benchmarking robustness in object detection: Autonomous driving when winter is coming》（目标检测中的鲁棒性基准测试：冬季来临的自动驾驶）. arXiv preprint arXiv:1907.07484 (2019)
Mintun, E., Kirillov, A., Xie, S.: 《On interaction between augmentations and corruptions in natural corruption robustness》（自然损坏鲁棒性中增强与损坏的相互作用）. In: Advances in Neural Information Processing Systems (2021)
Naseer, M.M., Ranasinghe, K., Khan, S.H., Hayat, M., Shahbaz Khan, F., Yang, M.H.: 《Intriguing properties of vision transformers》（视觉Transformer的有趣特性）. Advances in Neural Information Processing Systems 34, 23296–23308 (2021)
Park, N., Kim, S.: 《How do vision transformers work?》（视觉Transformer如何工作？）. arXiv preprint arXiv:2202.06709 (2022)
Phung, H., Dao, Q., Tran, A.: 《Wavelet diffusion models are fast and scalable image generators》（小波扩散模型是快速且可扩展的图像生成器）. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 10199–10208 (2023)
Rao, Y., Zhao, W., Zhu, Z., Lu, J., Zhou, J.: 《Global filter networks for image classification》（用于图像分类的全局滤波网络）. Advances in neural information processing systems 34, 980–993 (2021)
Ronen, M., Finder, S.E., Freifeld, O.: 《Deepdpm: Deep clustering with an unknown number of clusters》（DeepDPM：未知聚类数量的深度聚类）. In: Conference on Computer Vision and Pattern Recognition (2022)
Ronneberger, O., Fischer, P., Brox, T.: 《U-net: Convolutional networks for biomedical image segmentation》（U-Net：用于生物医学图像分割的卷积网络）. In: International Conference on Medical image computing and computer-assisted intervention. pp. 234–241. Springer (2015)
18 S.E. Finder et al.
Sandler, M., Howard, A., Zhu, M., Zhmoginov, A., Chen, L.C.: 《Mobilenetv2: Inverted residuals and linear bottlenecks》（MobileNetV2：反转残差与线性瓶颈）. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 4510–4520 (2018)
Saragadam, V., LeJeune, D., Tan, J., Balakrishnan, G., Veeraraghavan, A., Baraniuk, R.G.: 《Wire: Wavelet implicit neural representations》（WIRE：小波隐式神经表示）. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 18507–18516 (2023)
Simonyan, K., Zisserman, A.: 《Very deep convolutional networks for large-scale image recognition》（用于大规模图像识别的极深卷积网络）. CoRR abs/1409.1556 (2015)
Szegedy, C., Vanhoucke, V., Ioffe, S., Shlens, J., Wojna, Z.: 《Rethinking the inception architecture for computer vision》（重新思考计算机视觉中的Inception架构）. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 2818–2826 (2016)
Tan, M., Le, Q.: 《Efficientnet: Rethinking model scaling for convolutional neural networks》（EfficientNet：重新思考卷积神经网络的模型缩放）. In: International conference on machine learning. pp. 6105–6114. PMLR (2019)
Trockman, A., Kolter, J.Z.: 《Patches are all you need?》（仅需补丁即可？）. Transactions on Machine Learning Research (2023)
Tuli, S., Dasgupta, I., Grant, E., Griffiths, T.L.: 《Are convolutional neural networks or transformers more like human vision?》（卷积神经网络和Transformer哪种更接近人类视觉？）. arXiv preprint arXiv:2105.07197 (2021)
Van Gansbeke, W., Vandenhende, S., Georgoulis, S., Proesmans, M., Van Gool, L.: 《Scan: Learning to classify images without labels》（Scan：无标签图像分类学习）. In: European Conference on Computer Vision. Springer (2020)
Vanhoucke, V.: 《Learning visual representations at scale》（大规模学习视觉表示）. ICLR invited talk 1(2) (2014)
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, Ł., Polosukhin, I.: 《Attention is all you need》（注意力就是你所需要的一切）. Advances in neural information processing systems 30 (2017)
Wang, H., Ge, S., Lipton, Z., Xing, E.P.: 《Learning robust global representations by penalizing local predictive power》（通过惩罚局部预测能力学习鲁棒的全局表示）. In: Advances in Neural Information Processing Systems. pp. 10506–10518 (2019)
Wang, H., Wu, X., Huang, Z., Xing, E.P.: 《High-frequency component helps explain the generalization of convolutional neural networks》（高频分量有助于解释卷积神经网络的泛化能力）. In: Conference on Computer Vision and Pattern Recognition (2020)
Wang, M., Liu, B., Foroosh, H.: 《Factorized convolutional neural networks》（因子分解卷积神经网络）. In: Proceedings of the IEEE International Conference on Computer Vision Workshops. pp. 545–553 (2017)
Wang, T., Lu, C., Sun, Y., Yang, M., Liu, C., Ou, C.: 《Automatic ecg classification using continuous wavelet transform and convolutional neural network》（基于连续小波变换和卷积神经网络的心电图自动分类）. Entropy (2021)
Williams, T., Li, R.: 《Wavelet pooling for convolutional neural networks》（卷积神经网络的小波池化）. In: International Conference on Learning Representations (2018)
Xiao, T., Liu, Y., Zhou, B., Jiang, Y., Sun, J.: 《Unified perceptual parsing for scene understanding》（用于场景理解的统一感知解析）. In: Proceedings of the European conference on computer vision (ECCV). pp. 418–434 (2018)
Yun, S., Han, D., Oh, S.J., Chun, S., Choe, J., Yoo, Y.: 《Cutmix: Regularization strategy to train strong classifiers with localizable features》（CutMix：训练具有可定位特征的强分类器的正则化策略）. In: Proceedings of the IEEE/CVF international conference on computer vision. pp. 6023–6032 (2019)
Zhang, H., Cisse, M., Dauphin, Y.N., Lopez-Paz, D.: 《mixup: Beyond empirical risk minimization》（mixup：超越经验风险最小化）. In: International Conference on Learning Representations (2018)
Wavelet Convolutions for Large Receptive Fields 19
Zhong, Z., Zheng, L., Kang, G., Li, S., Yang, Y.: 《Random erasing data augmentation》（随机擦除数据增强）. In: Proceedings of the AAAI conference on artificial intelligence. vol. 34, pp. 13001–13008 (2020)
Zhou, B., Zhao, H., Puig, X., Xiao, T., Fidler, S., Barriuso, A., Torralba, A.: 《Semantic understanding of scenes through the ade20k dataset》（通过ADE20K数据集实现场景的语义理解）. International Journal of Computer Vision 127(3), 302–321 (2019)