当前位置: 首页 > news >正文

深度学习基础知识

1. 神经网络基础结构

  • 神经元(Neuron)

    • 作用:接收输入,计算加权和(线性变换),通过激活函数输出非线性结果。

    • 公式:z=wTx+bz=wTx+b,a=σ(z)a=σ(z)。

  • 层(Layer)

    • 输入层:接收原始数据(如图像像素、文本向量)。

    • 隐藏层:通过多层非线性变换提取高阶特征。

    • 输出层:生成最终预测(如分类概率、回归值)。


2. 核心组件及作用

(1) 激活函数(Activation Function)
  • 作用:引入非线性,使网络能够拟合复杂函数。

  • 常见类型

    • Sigmoid:输出0~1,用于二分类输出层(但易梯度消失)。

    • ReLU(Rectified Linear Unit):解决梯度消失,计算高效(负数输出为0)。

    • LeakyReLU:改进ReLU,负数区引入微小斜率避免“神经元死亡”。

    • Softmax:多分类输出层,将输出转化为概率分布。

(2) 损失函数(Loss Function)
  • 作用:量化模型预测与真实值的差异,指导参数优化。

  • 常见类型

    • MSE(均方误差):回归任务。

    • 交叉熵(Cross-Entropy):分类任务,尤其搭配Softmax。

    • Hinge Loss:支持向量机(SVM)分类任务。

(3) 优化器(Optimizer)
  • 作用:调整网络参数以最小化损失函数。

  • 常见类型

    • SGD:随机梯度下降,基础但可能震荡。

    • Adam:结合动量与自适应学习率,常用且高效。

    • RMSProp:自适应调整学习率,适合非平稳目标。

(4) 正则化(Regularization)
  • 作用:防止过拟合,提升泛化能力。

  • 常见方法

    • L1/L2正则化:约束权重大小(L1稀疏化,L2平滑权重)。

    • Dropout:训练时随机关闭部分神经元,减少依赖。

    • Batch Normalization:标准化层输入,加速训练并缓解梯度问题。

(5) 反向传播(Backpropagation)
  • 作用:通过链式法则计算损失对参数的梯度,用于优化器更新权重。


3. 网络架构类型

  • 卷积神经网络(CNN)

    • 作用:处理网格数据(如图像),通过卷积核提取局部特征。

    • 关键组件:卷积层、池化层(降维)、全连接层。

  • 循环神经网络(RNN)

    • 作用:处理序列数据(如文本、时间序列),保留历史信息。

    • 改进变体:LSTM、GRU(解决长程依赖问题)。

  • Transformer

    • 作用:基于自注意力机制,并行处理序列,擅长长距离依赖(如NLP任务)。

    • 关键组件:Self-Attention、多头注意力、位置编码。


4. 训练流程

  1. 前向传播:数据通过网络计算预测值。

  2. 损失计算:比较预测与真实值。

  3. 反向传播:计算梯度。

  4. 参数更新:优化器调整权重。

  5. 迭代:重复直至收敛。


5. 其他重要技术

  • 数据增强:扩充训练数据(如旋转图像),提升泛化性。

  • 学习率调度:动态调整学习率(如余弦退火)。

  • 迁移学习:复用预训练模型(如ResNet、BERT),加速新任务训练。

相关文章:

  • 5月13日日记
  • 【行为型之策略模式】游戏开发实战——Unity灵活算法架构的核心实现策略
  • python三方库sqlalchemy
  • 【IDEA】注释配置
  • 【SSL部署与优化​】​​如何为网站启用HTTPS:从Let‘s Encrypt免费证书到Nginx配置​​
  • 服务器数据恢复—XFS文件系统分区消失的数据恢复案例
  • 网络互联技术深度解析:理论、实践与进阶指南
  • PYTHON训练营DAY25
  • vs_code 调试python文件
  • URP相机如何将场景渲染定帧模糊绘制
  • 最优化方法Python计算:有约束优化应用——近似线性可分问题支持向量机
  • 自定义列甘特图,原生开发dhtmlxgantt根特图,根据数据生成只读根特图,页面展示html demo
  • MySQL视图:虚拟表的强大功能与应用实践
  • 【Redis实战篇】秒杀优化
  • 深入理解指针(1)
  • 养猪场巡检机器人的设计与应用研究
  • 哈希表的实现01
  • JAVA异常体系
  • 【node】如何把包发布到npm上
  • PaddleNLP框架训练模型:使用SwanLab教程
  • 92岁上海交大退休教师捐赠百万元给学校,其父也曾设奖学金
  • 回望星河深处,唤醒文物记忆——读《发现武王墩》
  • 加强战略矿产出口全链条管控将重点开展哪些工作?商务部答问
  • 将人工智能送上太空,我国太空计算卫星星座成功发射
  • 日本前卫艺术先驱群展上海:当具体派相遇古树古宅
  • 外企聊营商|特雷通集团:税务服务“及时雨”