当前位置：首页 > news >正文

梯度下降，梯度消失，梯度爆炸

news 2025/8/29 11:42:46

什么是梯度下降？

梯度下降是指，对网络中的一些动态参数，如权重等进行求偏导然后更新找到最小误差的一个过程。

新x=旧x−学习率∗梯度

（对模型的每一个可学习参数（通常是权重 w和偏置 b）求偏导数，目的是最小化损失函数（Loss Function）。

我们要求的是：损失函数 L关于某个特定参数（例如 w）的偏导数 ∂L/∂w。）

梯度下降和反向传播有什么区别？

（反向传播，找到或求出梯度的一个过程，梯度下降，利用梯度进行更新权重参数和偏置的过程）

梯度下降的算法有哪些？

常见的就是Adam 优化器（优化算法），他结合了动量法和自适应学习率算法，具有收敛快，鲁棒性好的特点。

梯度爆炸，梯度消失，这是什么意思，怎么回事，一般什么时候会出现这些现象？

梯度爆炸，梯度消失都是在反向传播过程中，由于链式法则的传递，让梯度传递过程中被指数级放大（NaN）或减小（0)的过程。

梯度爆炸会造成模型权重剧烈波动，极度不稳定，无法收敛。

梯度消失会导致梯度接近0，更新量也为0，若为训练后期，则达到稳定，若为前中期，则无法继续训练到模型（即网络退化成浅层网络）。

诱因：1）激活函数的选择（如Sigmod，Tanh激活函数，因为两者的导数值域分别为（0，025]，和（0，1]， |x|的值稍过大，就会处于饱和区，从而使得梯度爆炸或消失，ReLu就不会，因为在>0部分，梯度恒为1）。

2）权重初始化：初始化值过大就会容易梯度爆炸，过小就会容易梯度消失。

3）网络过深：网络越深链式法则反向传播的时候，就容易被指数级放大或缩小

4）优化器与学习率：虽然不直接导致梯度爆炸，但可能会使权重更新步伐太大，导致权重值进入一个“不稳定区”，间接引发后续的梯度爆炸。

5）数据本身包含异常值或量级差别很大，导致梯度过大。

解决方案： 1）——使用更有效地激活函数，如：ReLU，Leaky ReLU， ELU，Swish等

3）——使用残差连接，其可以绕过某些层进行传播，来缓解梯度消失或爆炸。

5）——使用门控设计来控制信息的流动和记忆（让过分奇异的值无法进入）

1）——批归一化，通过规范化每一层输入，使得激活函数的分布更加稳定。

梯度裁剪，即设置一个梯度阈值，过大或过小的不能通过

权重正则化——加入权重L1或L2范数惩罚项，惩罚过大的权重值，从而间接抑制梯度爆炸

查看全文

http://www.dtcms.com/a/355790.html

hintcon2025 Verilog OJ

若依cloud集训总结

对于冯诺依曼体系的理解

Linux：信号详解--醍醐灌顶

基于Spring Cloud Gateway构建API网关

第三章：Cesium 矢量数据可视化（点、线、面）

Shell脚本（1）

机器学习可解释库Shapash的快速使用教程（五）

全能工程软件 Siemens NX：从设计到制造的全流程解决方案，附安装指南

滑台模组如何实现电子制造精密加工？

HVV面经总结（二）

自动量化交易

将Ollama应用安装至其他盘

通信算法之323：verilog中带参数实体模版

Spotfire多表关联数据关联选择

在AStar模块中加入额外的搜索条件

在jdk8的spring-boot-2.7.x项目中集成logback-1.3.x

【涂鸦T5】3. 录音

实验项目：Kubernetes Ingress 实战演练

Cesium入门教程（三）环境搭建（Vue版）

蓝凌研究院《2025上市公司AI数智化转型白皮书》发布

【力扣】2725. 间隔取消

linux 环境批量发送get请求

大模型常用术语

机器视觉学习-day10-图像添加水印

帕萨特盘式制动器cad＋设计说明书

TensorFlow 面试题及详细答案 120道（41-50）-- 数据输入与管道

workflow/http_parser源码解密：HTTP解析器的双倍扩容与零拷贝策略

【C#】征服 .NET Framework 4.8 中的“古董”日期格式：/Date(1754548600000)/ 和 ISO 8601

【Nacos】优雅规范的使用和管理yml配置文件

相关文章：