Selective Kernel Networks 学习笔记
摘要
背景:在标准CNN中,每一层卷积的感受野被设计成相同的大小
方法:我们提出了一种卷积的动态选择机制,允许每一个神经元动态基于多重尺度的输入信息调整感受野大小,构建了一个选择核,其中使用这些分支的信息引导softmax注意力融合具有不同内核大小的多个分支,由多个SK但愿堆叠而成的神经网络称为SKNets
贡献:在ImageNet和CIFAR基准上达到了SOTA
引言
背景:在设计CNN时,没有考虑到神经元的感受野大小不是固定的
研究现状:InceptionNets具有根据输入内容调整下一个卷积层中神经元RF大小的固有能力,但这种线形聚合方法可能不足为神经元提供强大的适应能力
提出新方法:本文提出了一种非线性的方式通过多重卷积核来聚合信息以实现神经元感受野的自适应调整,提出了选择性核卷积,由三个操作组成:“Split,Fuse,Select"
Split操作用多种核大小根据不同的感受神经元大小生成多种路径
Fuse操作聚合多重路径的信息获得选择权重中全局和全面的表达
Select操作根据选择权重聚合不同大小核的特征图
贡献:ImageNet2012上获得了SOTA
相关工作
多分枝卷积网络
Highway networks引入了旁路路径和门控单元,双分支结构减轻了训练上百城网络的困难,在ResNet中旁路路径是纯恒等映射,InceptionNets仔细配置了每个分支通过定制的卷积核,以便聚合更多信息和多样化的功能
SKNets遵循InceptionNets的思想,为多个分支提供卷积核,但至少在两个方面不同,一是SKNet的方案简单的多,而是利用多分枝的自适应选择机制来实现神经元自适应感受野大小
分组/深度/扩张卷积
分组卷积因为低计算消耗变得流行,用G表示组大小,则参数和计算消耗与原卷积相比都会除以G。
深度卷积的组数等于通道数,把普通卷积分解成了深度卷积和逐点卷积,扩张卷积支持感受野的指数拓展而不损失覆盖范围
在SK卷积中,较大尺寸的和被设计为与分组/深度/拓展卷积集成,以避免沉重的开销
注意力机制
它偏向于最重要的信息表达分配,同时抑制不太有用的特征,SKNets是第一个通过引入注意力机制明确关注神经元感受野大小的
动态卷积
空间变换网络通过学习参数变换来扭曲特征图,这被认为很难训练,动态卷积核智能自适应修改卷积核的参数,而不能调整核大小。主动卷积通过偏移在增加卷积中的采样位置,,这些偏移量是端到端的,训练后变得静态
在SKNet中,神经元的感受野是可以在推理中自适应变化的,可变形卷积网络进一步使偏移量动态化,但不像SKNet那样聚合多尺度信息。
预先准备
输入X∈RH×W×C\mathbf{X} \in \mathbb{R}^{H \times W\times C}X∈RH×W×C
输出U∈RH×W×C\mathbf{U} \in \mathbb{R}^{H \times W\times C}U∈RH×W×C
方法部分
为了神经元能够自适应调整大小,通过三种操作,Split,Fuse和Select
Split
对于任意给定特征图X∈RH′×W′×C′\mathbf{X} \in \mathbb{R}^{H' \times W'\times C'}X∈RH′×W′×C′,通过两个卷积核分别得到两种输出,并将它们相加得到U∈RH×W×C\mathbf{U} \in \mathbb{R}^{H \times W\times C}U∈RH×W×C
Fuse
通过全局平局池化获得全局信息表示S∈R1×1×C\mathbf{S} \in \mathbb{R}^{1 \times 1\times C}S∈R1×1×C,并通过一个FC->BN->ReLU的变换通过降维提高效率
S=Fgp(U)S=F_{gp}(U)S=Fgp(U)
Z=ReLu(BatchNorm(FC(S)))Z=ReLu(BatchNorm(FC(S)))Z=ReLu(BatchNorm(FC(S)))
Select
将紧凑特征z通过两个全连接层得到Wa和Wb,将它们在第0个维度上拼接得到W∈R2×1×C\mathbf{W} \in \mathbb{R}^{2 \times 1 \times C}W∈R2×1×C然后在第0个维度上执行softmax操作得到权重Weight
将不同的权重与不同的尺度表示进行加权求和,得到最后的输出output∈R2×1×C\mathbf{output} \in \mathbb{R}^{2 \times 1 \times C}output∈R2×1×C
Split 通过不同感受野大小的卷积捕获多尺度语义信息
Fuse融合多尺度语义信息,得到全局信息表示
Select对不同尺度的信息进行Softmax操作,为合适的尺度对应的通道赋予更高的权重
实验部分
ImageNet分类
在ImageNet2012上将SKNet-50和SKNet-101与复杂度相似的公开竞争模型进行比较,在类似预算下,SKNets的表现始终优于最先进的基于注意力的CNN,值得注意的是,SKNet-50 的性能比 ResNeXt-101 高出 0.32%,尽管 ResNeXt-101 的参数大 60%,计算大 80%。
CIFAR分类
为评估在较小数据集上的性能,在CIFAR-10和100上进行了更多的实验,SKNet-29 的性能优于 ResNeXt-29,16 × 64d,参数减少 60%,在 CIFAR-10 和 100 上始终优于 SENet-29,参数减少 22%。
消融实验
第一个内核固定,第二个分支设置不同的内核的情况下得到的结果,得到两种最佳配置,5x5的内核在D=1 G=64时,一集3x3的内核,D=2 G=32时效果最好
结论
受到视觉皮层神经元自适应感受野的启发,提出了具有新型选择性核卷积的选择性核网络SKNets,通过软注意力方式来提高目标识别的效率和有效性。
SKNet在各种基准测试都展现了最佳性能