当前位置：首页 > news >正文

深度学习之第四课卷积神经网络CNN（一）

news 2025/8/27 7:25:09

简介：

一、CNN 基础

二、卷积层

1.什么是卷积

2.卷积相关概念

三、池化层

1.池化层的作用

2.最大池化

四、全连接层

五、感受野

六、卷积神经网络的构造

简介：

在深度学习的知识版图中，卷积神经网络（CNN）无疑是计算机视觉领域的 “核心引擎”。经过上一课对 CNN 基本概念的初步铺垫，本节课（一）将进一步带领大家 “拆解” CNN 的核心架构，从原理本质到实际应用，逐步揭开它为何能在图像识别、目标检测等任务中 “大显身手” 的秘密。相较于传统神经网络处理图像时存在的参数冗余、空间信息丢失等问题，CNN 通过卷积操作和池化操作两大核心机制，实现了对图像局部特征的高效提取与维度压缩。在这篇博客中，我们会先从 “卷积核的作用原理” 讲起 —— 用通俗的比喻解释卷积核如何像 “放大镜” 一样扫描图像，捕捉边缘、纹理等基础特征；再深入剖析感受野的概念，让大家明白不同层级的神经元如何协同作用，构建从局部到全局的特征映射。

同时，为了避免纯理论的枯燥，我还会在下一篇博客结合具体案例展开：比如通过对比 “传统全连接网络” 与 “CNN” 处理 MNIST 手写数字数据集的参数数量差异，直观展示 CNN 在降低计算复杂度上的优势；再以简单的灰度图像卷积过程为例，用动态示意图呈现卷积操作的每一步计算细节，帮助大家突破公式理解的难点。

一、CNN 基础

图像在计算机中的表达与核心挑战

要理解 CNN，首先得明白图像在计算机中的呈现方式。在计算机里，图像并非我们肉眼看到的色彩和形状，而是一堆按顺序排列的数字。对于黑白的灰度图，每个像素的数值范围在 0 到 255 之间，0 代表最暗，255 代表最亮。而我们日常生活中更常见的彩色图片，通常采用 RGB 颜色模型，即通过红、绿、蓝三原色的色光以不同比例相加产生各种颜色。在这种模型下，单个图像矩阵会扩展成有序排列的三个矩阵，也可以用三维张量来理解，其中每一个矩阵被称为图像的一个 “通道（channel）”，我们可以用宽、高、深三个维度来描述图像。

在图像识别任务中，CNN 面临着一个核心挑战 —— 实现画面不变性。这意味着无论物体在图像的左侧还是右侧、无论物体发生旋转或视角变化、无论物体大小改变，甚至在不同光照条件下，CNN 都能将其识别为同一物体。传统神经网络在应对这些问题时显得力不从心，它会将图像的像素逐个摊开作为输入，一旦物体位置、大小等发生变化，输入数据的排列顺序就会改变，导致网络无法准确识别。为了解决这个问题，传统方法往往需要用大量物体位于不同位置、不同状态的数据进行训练，同时增加网络隐藏层个数，但这会带来巨大的计算成本和过拟合风险。而 CNN 的出现，正是为了更高效、更精准地解决这些图像识别难题。