当前位置: 首页 > news >正文

梯度下降,梯度消失,梯度爆炸

什么是梯度下降?

梯度下降是指,对网络中的一些动态参数,如权重等进行求偏导然后更新找到最小误差的一个过程。

新x=旧x−学习率∗梯度

对模型的每一个可学习参数(通常是权重 w和偏置 b)求偏导数,目的是最小化损失函数(Loss Function)。​

我们要求的是:​​损失函数 L关于某个特定参数(例如 w)的偏导数 ∂L/∂w​。)

梯度下降和反向传播有什么区别?

(反向传播,找到或求出梯度的一个过程,  梯度下降,利用梯度进行更新权重参数和偏置的过程)

梯度下降的算法有哪些?

常见的就是Adam 优化器(优化算法),他结合了动量法和自适应学习率算法,具有 收敛快,鲁棒性好的特点。

梯度爆炸,梯度消失,这是什么意思,怎么回事,一般什么时候会出现这些现象?

梯度爆炸, 梯度消失都是在反向传播过程中,由于链式法则的传递,让梯度传递过程中被指数级放大(NaN)或减小(0)的过程。

梯度爆炸会造成模型权重剧烈波动,极度不稳定,无法收敛。

梯度消失会导致梯度接近0,更新量也为0,若为训练后期,则达到稳定,若为前中期,则无法继续训练到模型(即网络退化成浅层网络)。

诱因:1)激活函数的选择(如Sigmod,Tanh激活函数,因为两者的导数值域分别为(0,025],和(0,1], |x|的值稍过大,就会处于饱和区,从而使得梯度爆炸或消失,ReLu就不会,因为在>0部分,梯度恒为1)。

        2)权重初始化:初始化值过大就会容易梯度爆炸, 过小就会容易梯度消失。

        3)网络过深:网络越深 链式法则反向传播的时候,就容易被指数级放大或缩小

        4)优化器与学习率 :虽然不直接导致梯度爆炸,但可能会使权重更新步伐太大,导致权重   值进入一个“不稳定区”,间接引发后续的梯度爆炸。

        5)数据本身包含异常值或量级差别很大,导致梯度过大。

解决方案: 1)——使用更有效地激活函数,如:ReLU,Leaky ReLU, ELU,Swish等

                3)——使用残差连接,其可以绕过某些层进行传播,来缓解梯度消失或爆炸。

                5)——使用门控设计来控制信息的流动和记忆(让过分奇异的值无法进入)

                   1)——批归一化,通过规范化每一层输入,使得激活函数的分布更加稳定。                                      

                梯度裁剪,即设置一个梯度阈值,过大或过小的不能通过

                权重正则化——加入权重L1或L2范数惩罚项,惩罚过大的权重值,从而间接抑制梯度爆炸

http://www.dtcms.com/a/355790.html

相关文章:

  • hintcon2025 Verilog OJ
  • 若依cloud集训总结
  • 对于冯诺依曼体系的理解
  • Linux:信号详解--醍醐灌顶
  • 基于Spring Cloud Gateway构建API网关
  • 第三章:Cesium 矢量数据可视化(点、线、面)
  • Shell脚本(1)
  • 机器学习可解释库Shapash的快速使用教程(五)
  • 全能工程软件 Siemens NX:从设计到制造的全流程解决方案,附安装指南
  • 滑台模组如何实现电子制造精密加工?
  • HVV面经总结(二)
  • 自动量化交易
  • 将Ollama应用安装至其他盘
  • 通信算法之323:verilog中带参数实体模版
  • Spotfire多表关联数据关联选择
  • 在AStar模块中加入额外的搜索条件
  • 在jdk8的spring-boot-2.7.x项目中集成logback-1.3.x
  • 【涂鸦T5】3. 录音
  • 实验项目:Kubernetes Ingress 实战演练
  • Cesium入门教程(三)环境搭建(Vue版)
  • 蓝凌研究院《2025上市公司AI数智化转型白皮书》发布
  • 【力扣】2725. 间隔取消
  • linux 环境 批量发送get请求
  • 大模型常用术语
  • 机器视觉学习-day10-图像添加水印
  • 帕萨特盘式制动器cad+设计说明书
  • TensorFlow 面试题及详细答案 120道(41-50)-- 数据输入与管道
  • workflow/http_parser源码解密:HTTP解析器的双倍扩容与零拷贝策略
  • 【C#】征服 .NET Framework 4.8 中的“古董”日期格式:/Date(1754548600000)/ 和 ISO 8601
  • 【Nacos】优雅规范的使用和管理yml配置文件