当前位置：首页 > news >正文

【第三章:神经网络原理详解与Pytorch入门】01.神经网络算法理论详解与实践-(4)神经网络中的重要组件

news 2025/7/5 7:23:07

第三章: 神经网络原理详解与Pytorch入门

内容：激活函数、loss函数、dropout、梯度消失与爆炸、过拟合与欠拟合

神经网络的性能依赖于多个关键组件的合理设计与使用。理解这些组件有助于构建更加稳健且高效的模型。

【深度学习】关键技术-激活函数（Activation Functions）_激活函数代码-CSDN博客

激活函数决定神经元的输出值，常见有：

Sigmoid【漫话机器学习系列】142.Sigmoid 激活函数（Sigmoid Activation Function）_sigmoid函数-CSDN博客
- 公式：σ(x) = 1 / (1 + e^(-x))
- 特点：输出范围 (0, 1)，容易饱和，导致梯度消失。
Tanh【漫话机器学习系列】224.双曲正切激活函数（Hyperbolic Tangent Activation Function）_hyperbolic tangent激活函数-CSDN博客
- 公式：tanh(x) = 2σ(2x) - 1
- 输出范围 (-1, 1)，中心对称。
ReLU【漫话机器学习系列】152.ReLU激活函数（ReLU Activation Function）_relu函数-CSDN博客
- 公式：f(x) = max(0, x)
- 非饱和、计算简单，是目前最常用的激活函数。
Leaky ReLU【漫画机器学习系列】102.带泄露线性整流函数（Leaky ReLU）_leakyrelu-CSDN博客
- 公式：f(x) = x if x > 0 else αx，解决ReLU死神经元问题。

激活函数的选取会影响梯度传播、网络非线性表达能力。

【深度学习】关键技术-损失函数（Loss Function）-CSDN博客

衡量模型预测与真实标签之间的差距：

回归问题常用：
- 均方误差（MSE）：L = 1/n Σ (y - ŷ)^2
- 平均绝对误差（MAE）
分类问题常用：
- 交叉熵（Cross-Entropy）：L = - Σ y log(ŷ)
- 二元分类：Binary Cross Entropy
- 多分类：Categorical Cross Entropy

损失函数是反向传播的起点，决定梯度方向。

【深度学习】关键技术-正则化（Regularization）_在深度学习中,正则化方法的主要作用是?-CSDN博客

【漫话机器学习系列】151.正则化（Regularization）-CSDN博客

【漫话机器学习系列】228.丢弃对于隐含单元的影响（The Effect Of Dropout On Hidden Units）_卷积神经网络dropout-CSDN博客

【漫话机器学习系列】011.Bagging方法 VS Dropout方法_dropout和bagging-CSDN博客

import torch.nn as nn
layer = nn.Dropout(p=0.5)

【漫话机器学习系列】162.“消失”的梯度（Vanishing Gradient Problem）_损失函数梯度消失-CSDN博客

【漫话机器学习系列】053.梯度爆炸（Exploding Gradient Problem）-CSDN博客

应对策略：

【深度学习】计算机视觉（CV）-图像分类-ResNet（Residual Network，残差网络）_cv resnet-CSDN博客

【漫话机器学习系列】277.梯度裁剪（Gradient Clipping）_梯度裁剪参数作用-CSDN博客

【漫话机器学习系列】199.过拟合 vs 欠拟合（Overfit vs Underfit）_模型过拟合图片-CSDN博客

【漫话机器学习系列】200.过度拟合（Overfitting）_过度拟合训练数据-CSDN博客

【机器学习】基础知识：拟合度（Goodness of Fit）-CSDN博客

【漫话机器学习系列】007.如何防止过拟合（avoid over-fitting）_如何保证模型不过度依赖训练数据-CSDN博客

过拟合（Overfitting）：模型在训练集上表现很好，但泛化能力差。
- 原因：模型复杂度过高、训练数据量不足
- 解决方法：增加数据、正则化、Dropout、早停等
欠拟合（Underfitting）：模型在训练集和测试集上都表现差。
- 原因：模型太简单、训练不充分
- 解决方法：提升模型复杂度、调参、增加训练轮数