当前位置: 首页 > news >正文

深度学习基础知识

1. 神经网络基础结构

  • 神经元(Neuron)

    • 作用:接收输入,计算加权和(线性变换),通过激活函数输出非线性结果。

    • 公式:z=wTx+bz=wTx+b,a=σ(z)a=σ(z)。

  • 层(Layer)

    • 输入层:接收原始数据(如图像像素、文本向量)。

    • 隐藏层:通过多层非线性变换提取高阶特征。

    • 输出层:生成最终预测(如分类概率、回归值)。


2. 核心组件及作用

(1) 激活函数(Activation Function)
  • 作用:引入非线性,使网络能够拟合复杂函数。

  • 常见类型

    • Sigmoid:输出0~1,用于二分类输出层(但易梯度消失)。

    • ReLU(Rectified Linear Unit):解决梯度消失,计算高效(负数输出为0)。

    • LeakyReLU:改进ReLU,负数区引入微小斜率避免“神经元死亡”。

    • Softmax:多分类输出层,将输出转化为概率分布。

(2) 损失函数(Loss Function)
  • 作用:量化模型预测与真实值的差异,指导参数优化。

  • 常见类型

    • MSE(均方误差):回归任务。

    • 交叉熵(Cross-Entropy):分类任务,尤其搭配Softmax。

    • Hinge Loss:支持向量机(SVM)分类任务。

(3) 优化器(Optimizer)
  • 作用:调整网络参数以最小化损失函数。

  • 常见类型

    • SGD:随机梯度下降,基础但可能震荡。

    • Adam:结合动量与自适应学习率,常用且高效。

    • RMSProp:自适应调整学习率,适合非平稳目标。

(4) 正则化(Regularization)
  • 作用:防止过拟合,提升泛化能力。

  • 常见方法

    • L1/L2正则化:约束权重大小(L1稀疏化,L2平滑权重)。

    • Dropout:训练时随机关闭部分神经元,减少依赖。

    • Batch Normalization:标准化层输入,加速训练并缓解梯度问题。

(5) 反向传播(Backpropagation)
  • 作用:通过链式法则计算损失对参数的梯度,用于优化器更新权重。


3. 网络架构类型

  • 卷积神经网络(CNN)

    • 作用:处理网格数据(如图像),通过卷积核提取局部特征。

    • 关键组件:卷积层、池化层(降维)、全连接层。

  • 循环神经网络(RNN)

    • 作用:处理序列数据(如文本、时间序列),保留历史信息。

    • 改进变体:LSTM、GRU(解决长程依赖问题)。

  • Transformer

    • 作用:基于自注意力机制,并行处理序列,擅长长距离依赖(如NLP任务)。

    • 关键组件:Self-Attention、多头注意力、位置编码。


4. 训练流程

  1. 前向传播:数据通过网络计算预测值。

  2. 损失计算:比较预测与真实值。

  3. 反向传播:计算梯度。

  4. 参数更新:优化器调整权重。

  5. 迭代:重复直至收敛。


5. 其他重要技术

  • 数据增强:扩充训练数据(如旋转图像),提升泛化性。

  • 学习率调度:动态调整学习率(如余弦退火)。

  • 迁移学习:复用预训练模型(如ResNet、BERT),加速新任务训练。

http://www.dtcms.com/a/190528.html

相关文章:

  • 5月13日日记
  • 【行为型之策略模式】游戏开发实战——Unity灵活算法架构的核心实现策略
  • python三方库sqlalchemy
  • 【IDEA】注释配置
  • 【SSL部署与优化​】​​如何为网站启用HTTPS:从Let‘s Encrypt免费证书到Nginx配置​​
  • 服务器数据恢复—XFS文件系统分区消失的数据恢复案例
  • 网络互联技术深度解析:理论、实践与进阶指南
  • PYTHON训练营DAY25
  • vs_code 调试python文件
  • URP相机如何将场景渲染定帧模糊绘制
  • 最优化方法Python计算:有约束优化应用——近似线性可分问题支持向量机
  • 自定义列甘特图,原生开发dhtmlxgantt根特图,根据数据生成只读根特图,页面展示html demo
  • MySQL视图:虚拟表的强大功能与应用实践
  • 【Redis实战篇】秒杀优化
  • 深入理解指针(1)
  • 养猪场巡检机器人的设计与应用研究
  • 哈希表的实现01
  • JAVA异常体系
  • 【node】如何把包发布到npm上
  • PaddleNLP框架训练模型:使用SwanLab教程
  • 虚拟机安装CentOS7网络问题
  • 数字化转型 - 标准化
  • docker 端口映射 docker run -p <宿主机端口>:<容器端口> <镜像名> ssh连不上的原因
  • Kafka进阶指南:从原理到实战
  • 认识Docker/安装Docker
  • 因为工作需要,做了一个简单的FunASR语音引擎训练材料标注工具
  • 【Linux】git
  • 时源芯微|扩频IC如何减少电磁干扰(EMI)
  • 什么是SparkONYarn模式?
  • 喜报!3N获批首个创新医疗器械三类证—「镜净GP」硬性接触镜护理消毒仪