当前位置：首页 > news >正文

深度学习----ResNet（残差网络）-彻底改变深度神经网络的训练方式：通过残差学习来解决深层网络退化问题（附PyTorch实现）

news 2025/9/24 7:16:17

时间：2025年9月23日 17:37:05 星期二

作者：AI技术爱好者 Sunhen_Qiletian

一、ResNet简介与核心贡献（引言）

二、深层网络的痛点：梯度消失与梯度爆炸

梯度消失/爆炸的三大诱因

1. 激活函数特性限制

2. 层数过深导致的连乘效应

3. 初始权重不合理

三、ResNet的解决方案：残差块与跳跃连接

1.残差块的设计逻辑

2.关键技术：Batch Normalization（批量归一化）

3.不同层数的残差网络模型设计：

四、ResNet核心代码实现（PyTorch）

1. 环境准备与数据加载

2. 数据预处理与加载

3. 残差块（ResBlock）定义

4. 完整ResNet模型定义

5. 训练与测试函数

6. 模型训练与结果可视化

五、总结与扩展

一、ResNet简介与核心贡献（引言）

ResNet（Residual Network，残差网络）由微软亚洲研究院的何凯明团队于2015年提出，凭借其突破性的残差学习思想，在当年ImageNet竞赛中一举斩获分类任务第一名、目标检测第一名，并在COCO数据集的目标检测与图像分割任务中同样登顶。

与传统CNN的改进不同，ResNet并未颠覆卷积神经网络的底层算法原理，而是通过逻辑上的网络结构调整（引入残差块与跳跃连接），有效解决了深层网络的“退化问题”（即层数增加时准确率不升反降的现象）。其核心思想“残差学习”甚至被迁移到自然语言处理（NLP）任务中（如文本分类、机器翻译），显著提升了模型训练效率与性能。

二、深层网络的痛点：梯度消失与梯度爆炸

在理解ResNet的改进前，我们需要先明确深层网络训练的两大核心障碍：梯度消失与梯度爆炸。当网络层数过深时，反向传播的梯度在逐层传递中会因连乘操作（链式法则）逐渐趋近于0（消失）或急剧增大（爆炸），导致模型无法有效学习，训练结果失控。

梯度消失/爆炸的三大诱因

1. 激活函数特性限制

早期CNN常用Sigmoid作为激活函数，但其导数最大值仅为0.25（输入绝对值较大时趋近于0）。深层网络中，梯度经多层Sigmoid激活后会被严重衰减，导致“梯度消失”。

在原来我们采取的措施是把sigmoid函数换成Relu函数：

特性	Sigmoid	ReLU
数学表达式	f(x)=1+e−x1	f(x)=max(0,x)
输出范围	(0,1)	[0,+∞)
导数特性	(0,0.25]，大输入时接近0	正区间导数为1，负区间导数为0
计算效率	指数运算，成本较高	仅比较运算，高效
零中心输出	否（输出恒正）	否（输出非负）
稀疏激活	否（输出稠密）	是（约50%神经元失活）
主要问题	梯度消失、输出非零中心	死亡ReLU（神经元永久失活）
适用场景	二分类输出层（概率输出）	隐藏层（深层CNN/大模型）

总结：现代CNN普遍采用ReLU（或其变体）替代Sigmoid，缓解梯度消失问题。

2. 层数过深导致的连乘效应

当我们初始化梯度小于1或者大于1的时候，

我们梯度更新的时候参数都是连乘的，如果我们初始化参数小于1，或者小于1，这样经过连乘就会产生梯度消失或者梯度爆炸的情况。

总结：假设网络初始化权重w的绝对值均小于1，反向传播时梯度会因多次连乘（如∏w）指数级衰减；若w绝对值大于1，则梯度会指数级增长，最终引发梯度爆炸。

3. 初始权重不合理

例如这个取0.01，然后得到的值就会非常低了。

若初始权重过小（如0.01），梯度传递时会被逐层削弱；若初始权重过大，则可能导致梯度爆炸。

三、ResNet的解决方案：残差块与跳跃连接

ResNet的核心创新是残差块（Residual Block），其通过引入“跳跃连接（Skip Connection）”直接将输入x传递到输出端，使网络学习“残差映射”而非原始映射。

1.残差块的设计逻辑

传统网络的优化目标是学习映射H(x)，而ResNet让网络学习残差映射F(x)=H(x)−x，最终输出为H(x)=F(x)+x。

若H(x)难以优化（如梯度消失导致无法更新），残差块允许通过“跳跃连接”直接保留原始输入x（即令F(x)=0），避免网络性能随层数增加而退化。

2.关键技术：Batch Normalization（批量归一化）

ResNet在每一层卷积后引入BatchNorm，通过对层输入进行归一化（均值0，方差1），减少内部协变量偏移（Internal Covariate Shift），稳定梯度传播，间接缓解梯度消失/爆炸问题。

通俗解释：

ResNet在每一层都进行了Batch Normalization,把每一层的梯度进行了归一化。

那么对于梯度消失的或者梯度爆炸的，我们可以把那一层W设置为0，那么这一层就影响不到我们的原本的性能了。然后再加上了我们的副本X,对结果就没有影响了。

放大看就是这样的。我们这里引入一个残差块，来保存一个副本X，然后如果我这里如果把模型训练坏了，我再进行参数调整的时候，我们可以把这块参数设置为0，就是把跳跃的那一段给省略掉，也不至于让我们的模型更差。所以可以总结为，随着网路层数的增加，不应当让我们的网络性能变的更差。