当前位置: 首页 > news >正文

卷积神经网络:卷积层的核心原理与机制

为什么需要卷积神经网络?

传统全连接神经网络在处理图像数据时面临根本性挑战:

  1. 参数爆炸:一张 1000×1000 像素的彩色图像,输入层需要 300 万个神经元
  2. 平移不变性缺失:物体位置变化需要重新学习特征
  3. 局部相关性忽略:像素间的空间关系未被有效利用
图像数据特性
局部相关性
平移不变性
层次化特征
卷积操作
参数共享
多层卷积

卷积神经网络(CNN)通过局部连接权重共享空间下采样三大核心思想解决这些问题:

问题传统神经网络卷积神经网络
参数量巨大(O(n²))极小(与卷积核大小相关)
平移不变性内置(通过卷积核滑动)
特征提取全局特征局部特征→全局特征

感受野:理解特征抽象过程

1962年Hubel和Wiesel通过对猫视觉皮层细胞的研究,提出了感受野(receptive field)的概念,Fukushima基于感受野概念提出的神经认知机(neocognitron)可以看作是卷积神经网络的第一个实现网络。

单个感受器与许多感觉神经纤维相联系,感觉信息是通过许多感受神经纤维发放总和性的空间与时间类型不同的冲动,相当于经过编码来传递。

输入像素
第一层卷积
第二层卷积
第三层卷积
高级特征
感受野示例图
感受野示例图

感受野计算

R F l = ( R F l − 1 − 1 ) × s t r i d e + k e r n e l s i z e RF_{l} = (RF_{l-1} - 1) \times stride + kernel\\_size RFl=(RFl11)×stride+kernelsize

假如一个6x6的图像卷积与一个3x3的过滤器(Filter or kenel)进行卷积运算也可能是矩阵乘法所以通常特别指定是卷积的时候代表卷积意思

  • 相当于将Filter放在Image上,从左到右、从上到下地(默认一个像素)移动过整个Image,分别计算Imagelmage被Filter盖住的部分与Filter的逐元素乘积的和

     例子示意图
    例子示意图

在这个 6 × 6 6\times6 6×6的图像中,左边一半像素的值全是10,右边一半像素的值全是0,中间是一条非常明显的垂直边缘。这个图像与过滤器卷积的结果中,中间两列的值都是30,两边两列的值都是0,即检测到了原 6 × 6 6\times6 6×6图像中的垂直边缘。

虽然看上去非常粗,是因为我们的图像太小,只有5个像素长、宽,所以最终得到结果看到的是两个像素位置,如果在一个 500 × 500 500\times500 500×500的图当中,就是一个竖直的边缘了。

 例子示意图
例子示意图

随着深度学习的发展,我们需要检测更复杂的图像中的边缘,与其使用由人手工设计的过滤器,还可以将过滤器中的数值作为参数,通过反向传播来学习得到。算法可以根据实际数据来选择合适的检测目标,无论是检测水平边缘、垂直边缘还是其他角度的边缘,并习得图像的低层特征。

卷积神经网络的核心组成

  • 卷积神经网络由一个或多个卷积层、池化层以及全连接层等组成。与其他深度学习结构相比,卷积神经网络在图像等方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他浅层或深度神经网络,卷积神经网络需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。
分类决策
特征提取
输出
全连接层
池化层
激活函数
卷积层
输入图像
 卷积神经网络的核心组成示意图
卷积神经网络的核心组成示意图
  1. 卷积层:特征提取核心
  2. 激活层:引入非线性(ReLU)
  3. 池化层:空间下采样(MaxPooling)
  4. 全连接层:高级特征组合

卷积层深度解析

1. 基本卷积操作

输入图像
卷积核
滑动扫描
点积计算
输出特征图

数学表示
( I ∗ K ) ( i , j ) = ∑ m ∑ n I ( i + m , j + n ) ⋅ K ( m , n ) (I * K)(i,j) = \sum_{m}\sum_{n} I(i+m,j+n) \cdot K(m,n) (IK)(i,j)=mnI(i+m,j+n)K(m,n)

其中:

  • I I I:输入图像

  • K K K:卷积核

  • ( i , j ) (i,j) (i,j):输出位置

     基本卷积操作示意图
    基本卷积操作示意图

2. 零填充(Padding)

零填充:在图片像素的最外层加上若干层零,记住 p = 1。
因为0在权重乘积和运算中对最终结果不造成影响,也就避免了图片增加了额外的干扰信息

 零填充操作示意图
零填充操作示意图
2.1 Valid Padding(无填充)
  • 输出尺寸: ( W − F + 1 ) × ( H − F + 1 ) (W - F + 1) \times (H - F + 1) (WF+1)×(HF+1)
  • 特征图尺寸逐渐减小
2.2 Same Padding(同尺寸填充)
  • 填充量: P = ( F − 1 ) / 2 P = (F-1)/2 P=(F1)/2
  • 输出尺寸: W × H W \times H W×H(保持输入输出同尺寸)
  • 保留边缘信息
无填充
同尺寸填充
输入图像
特征图缩小
特征图大小不变

3. 步长(Stride)

步长=1
密集扫描
步长=2
跳跃扫描
  • 输出尺寸计算
    W o u t = ⌊ W i n − F + 2 P S ⌋ + 1 W_{out} = \lfloor \frac{W_{in} - F + 2P}{S} \rfloor + 1 Wout=SWinF+2P+1
    H o u t = ⌊ H i n − F + 2 P S ⌋ + 1 H_{out} = \lfloor \frac{H_{in} - F + 2P}{S} \rfloor + 1 Hout=SHinF+2P+1

    其中输入图片大小为 W i n W_{in} Win,过滤器大小为F,步长为S,零填充为P

  • 应用:步长>1实现空间下采样

4. 多通道卷积

当输入有多个通道(channel)时(例如图片可以有RGB三个通道),卷积核需要拥有相同的channel数,每个卷积核channel与输入层的对应channel进行卷积,将每个channel的卷积结果按位相加得到最终的Feature Map。

RGB图像
通道1
通道2
通道3
卷积核1
单通道输出

多通道卷积公式
O ( i , j ) = ∑ c = 1 C ( I c ∗ K c ) ( i , j ) + b O(i,j) = \sum_{c=1}^{C} (I_c * K_c)(i,j) + b O(i,j)=c=1C(IcKc)(i,j)+b

其中:

  • C C C:输入通道数
  • I c I_c Ic:第c个通道输入
  • K c K_c Kc:第c个通道的卷积核
    多通道卷积示意图
    多通道卷积示意图

5. 多核卷积(深度维度)

当有多个卷积核时,可以学习到多种不同的特征,对应产生包含多个 channel 的 Feature Map,例如上图有两个 filter,所以 output 有两个 channel。这里的多少个卷积核也可理解为多少个神经元。

输入特征图
卷积核1
卷积核2
卷积核N
输出通道1
输出通道2
输出通道N
  • 每个卷积核生成一个独立特征图

  • 输出特征图数量 = 卷积核数量

  • 实现多种特征的同时提取

    多核卷积示意图
    多核卷积示意图

卷积核的数学本质

单个卷积核的计算可视为空间滤波操作

F e a t u r e M a p ( x , y ) = ∑ i = − k k ∑ j = − k k I n p u t ( x + i , y + j ) ⋅ K e r n e l ( i , j ) + B i a s FeatureMap(x,y) = \sum_{i=-k}^{k}\sum_{j=-k}^{k} Input(x+i,y+j) \cdot Kernel(i,j) + Bias FeatureMap(x,y)=i=kkj=kkInput(x+i,y+j)Kernel(i,j)+Bias

其中:

  • ( x , y ) (x,y) (x,y):输出位置坐标
  • k k k:卷积核半径( k = F − 1 2 k = \frac{F-1}{2} k=2F1
  • K e r n e l ( i , j ) Kernel(i,j) Kernel(i,j):卷积核权重参数

卷积核的类型与功能

卷积核类型数学表示功能
边缘检测 [ − 1 0 1 − 2 0 2 − 1 0 1 ] \begin{bmatrix} -1 & 0 & 1 \\ -2 & 0 & 2 \\ -1 & 0 & 1 \end{bmatrix} 121000121 提取垂直边缘
模糊滤波 1 9 [ 1 1 1 1 1 1 1 1 1 ] \frac{1}{9}\begin{bmatrix} 1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 \end{bmatrix} 91 111111111 图像平滑
锐化滤波 [ 0 − 1 0 − 1 5 − 1 0 − 1 0 ] \begin{bmatrix} 0 & -1 & 0 \\ -1 & 5 & -1 \\ 0 & -1 & 0 \end{bmatrix} 010151010 增强细节
高斯滤波 1 16 [ 1 2 1 2 4 2 1 2 1 ] \frac{1}{16}\begin{bmatrix} 1 & 2 & 1 \\ 2 & 4 & 2 \\ 1 & 2 & 1 \end{bmatrix} 161 121242121 噪声抑制

特征图的空间层次

原始图像
低级特征
边缘/纹理
中级特征
部件/图案
高级特征
对象/场景
  • 浅层卷积:小感受野,提取局部基础特征
  • 深层卷积:大感受野,识别复杂结构
  • 特征融合:跨层次特征组合增强表示能力

卷积层的参数共享

卷积神经网络的核心优势:

单个卷积核
扫描整个图像
相同权重
平移不变性
  • 参数量计算
    P a r a m s = ( F × F × C i n ) × C o u t + C o u t Params = (F \times F \times C_{in}) \times C_{out} + C_{out} Params=(F×F×Cin)×Cout+Cout

    其中:

    • F F F:卷积核尺寸
    • C i n C_{in} Cin:输入通道数
    • C o u t C_{out} Cout:输出通道数

示例:输入256通道,输出512通道,3×3卷积核
参数量 = (3×3×256)×512 + 512 = 1,180,160

卷积层的实际应用

计算机视觉任务演进

任务传统方法CNN解决方案
图像分类SIFT+HOG+SVMAlexNet/ResNet
目标检测Haar+AdaboostYOLO/Faster R-CNN
语义分割图割+MRFU-Net/DeepLab
图像生成PCA/ICAGANs/Diffusion

卷积层的生物学基础

卷积神经网络的设计灵感来自视觉皮层结构:

生物视觉系统
边缘检测
方向不变性
物体识别
卷积层
池化层
深层卷积
V1复杂细胞
V1简单细胞
V2/V4
IT皮层
视网膜
LGN
CNN对应
  • 简单细胞 → 卷积操作(局部特征检测)
  • 复杂细胞 → 池化操作(位置不变性)
  • 层级结构 → 特征抽象层次

总结

卷积层是CNN的核心组件,通过创新性设计解决了图像处理的根本挑战:

  1. 数学本质:离散卷积运算 + 非线性激活
  2. 关键机制
    • 局部感受野
    • 权重共享
    • 多级抽象
  3. 参数控制
    • 核尺寸控制特征粒度
    • 步长控制空间分辨率
    • 填充控制边界处理
    • 核数量控制特征多样性
  4. 演进方向
    • 深度可分离卷积
    • 注意力增强
    • 动态卷积核
    • 3D/时空卷积

理解卷积层的原理和机制,是掌握现代计算机视觉和图像处理技术的基础。从LeNet到ConvNeXt,卷积层不断演进但其核心思想始终如一:通过局部连接和参数共享高效提取层次化空间特征

http://www.dtcms.com/a/269095.html

相关文章:

  • MATLAB | 绘图复刻(二十一)| 扇形热图+小提琴图
  • C++11中的std::ratio:编译时有理数运算的艺术
  • 暑假算法日记第三天
  • WebRTC与RTMP
  • iOS App抓包工具排查后台唤醒引发请求异常
  • Python编译器(Pycharm Jupyter)
  • MySql:多表查询——子查询
  • 【应急响应】Linux 自用应急响应工具(LinuxCheckShoot)
  • 腾讯地图 vue3 使用 封装 地图组件
  • 赛事开启|第三届视觉语音识别挑战赛 CNVSRC 2025 启动
  • 自动驾驶ROS2应用技术详解
  • 鸿蒙arkts使用关系型数据库,使用DB Browser for SQLite连接和查看数据库数据?使用TaskPool进行频繁数据库操作
  • Python 异步编程从基础到高级全面指南
  • 模拟数字电路基础-2
  • 初识Neo4j之Cypher(三)
  • leetcode1089.复写零
  • 代码审计-SQL注入
  • 简单的安卓ANR与卡顿分析
  • 要将本地分支强制更新为与远程分支完全一致(以远程为主
  • c++文字游戏_闯关打怪2.0(开源)
  • paimon.disk包:磁盘处理
  • 关于Novatek B/G-R/G白平衡色温坐标系再探究
  • 谢飞机的Java高级开发面试:从Spring Boot到分布式架构的蜕变之旅
  • 安卓10.0系统修改定制化____如何修改ROM 实现开机自动开启开发者选项与隐藏开发者选项
  • 基于区块链的电子签署系统的设计与实现(源码+文档+部署讲解)
  • da y54
  • LED 闪烁 LED 流水灯 蜂鸣器
  • IROS 2025|RL vs MPC性能对比:加州理工无人机实测,谁在「变形控制」中更胜一筹?
  • pg_class 系统表信息
  • React + Express 传输加密以及不可逆加密