Class21卷积层的多输入通道和多输出通道
Class21卷积层的多输入通道和多输出通道
一.多输入通道
在实际的图像处理或深度学习中,输入不仅仅是二维的,而是通常有多个通道。比如彩色图片是 RGB 的,就有三个通道(R, G, B),输入张量大小是 (C_in, H, W),其中 C_in 是输入通道数。
每个通道都有一个卷积核,结果是所有通道卷积结果的和
二.多输出通道
我们对同一个输入通道,使用不同的卷积核,产生不同的输出通道。
每个卷积核提取的是不同的特征。比如第一个核提边缘,第二个提纹理,第三个提角点。
这三个卷积核的结果合在一起,形成一个 shape 为 (3, H_out, W_out) 的输出张量。
每个输出通道可以识别特定模式,输入通道核识别并组合输入中的模式。
三.1*1卷积层
1×1 卷积并不是“看 1 个像素”,虽然它在空间上(宽度 × 高度)只看一个位置,但它会同时操作所有输入通道。所以它并不是空间卷积,而更像是通道维度上的线性变换(或降维/升维)。
假设有输入X
输入张量可以想象为两张叠在一起的图:
现在加入一个 1×1 卷积层,输出通道设为1。
其中卷积核的作用为:它只看当前像素的两个通道的值,然后“加权融合”。
卷积核权重:
通道1权重:0.1
通道2权重:0.5
最后输出为:
1×1 卷积就是在“每个像素”位置上,把多个通道的值做一个加权混合,变成新的通道表示。它像是一个轻量版的全连接层,每个位置共享参数,对通道信息进行重组或压缩。