当前位置: 首页 > wzjs >正文

网站建设报价wordpress如何将文章链接

网站建设报价,wordpress如何将文章链接,视频网站开发要多少钱,怎样做外贸网站建设文章目录 梯度消失1. 原理2. 影响3. 易出现情况4. 解决方法5. 编程实战案例 梯度爆炸1. 原理2. 影响3. 易出现情况4. 解决方法5. 编程实战案例 常用权重初始化方法及其影响1. 随机初始化2. Xavier初始化(Glorot初始化)3. Kaiming初始化(He初始…

文章目录

    • 梯度消失
      • 1. 原理
      • 2. 影响
      • 3. 易出现情况
      • 4. 解决方法
      • 5. 编程实战案例
    • 梯度爆炸
      • 1. 原理
      • 2. 影响
      • 3. 易出现情况
      • 4. 解决方法
      • 5. 编程实战案例
    • 常用权重初始化方法及其影响
      • 1. 随机初始化
      • 2. Xavier初始化(Glorot初始化)
      • 3. Kaiming初始化(He初始化)
      • 4. Batch Normalization中的权重初始化
      • 5. 编程实战案例(以Xavier初始化和Kaiming初始化对比为例)

在深度学习的神经网络训练过程中,梯度消失和梯度爆炸是较为常见且会严重影响模型训练效果的问题。

梯度消失

1. 原理

在神经网络反向传播计算梯度时,某些激活函数(如sigmoid、tanh)具有特殊的特性。以sigmoid函数为例,其导数为 f ′ ( x ) = f ( x ) ( 1 − f ( x ) ) f'(x)=f(x)(1 - f(x)) f(x)=f(x)(1f(x)),当输入值 x x x处于较大或较小区间时, f ′ ( x ) f'(x) f(x)趋近于0。随着网络层数增多,梯度在反向传播经过多层时不断相乘,就如同多个小于1的数相乘,结果会越来越小,最终使得梯度趋近于0,导致前面的层难以更新参数。

2. 影响

由于前面层的参数几乎无法更新,训练过程会停滞不前,模型难以学习到数据的有效特征,进而致使模型拟合能力变差,无法准确进行预测和分类。

3. 易出现情况

  • 网络层数过深:层数的增加会使梯度传播经过更多层,激活函数导数的累积效应更加明显,梯度也就更容易趋近于0。
  • 激活函数选择不当:如果使用sigmoid、tanh等易导致梯度消失的激活函数,并且在网络中大量使用此类函数,那么梯度消失的问题会更加严重。
  • 权重初始化不合理:当权重初始化值过小时,在反向传播中,梯度与权重相乘后会不断衰减,从而引发梯度消失。
  • 数据特征分布差异大:特征分布的差异较大,会使得神经元的激活状态不同,部分数据可能使激活函数进入饱和区,导数变小,进而引发梯度消失。
  • 学习率设置过高:过高的学习率会使参数更新幅度过大,可能导致模型跳过最优解,表现出类似梯度消失的现象。

4. 解决方法

  • 更换激活函数:可以选用ReLU及其变体(如LeakyReLU、PReLU等)激活函数。这些激活函数在正数部分导数恒为1,能够有效避免梯度消失。
  • 采用合适的权重初始化方法:例如Xavier初始化,它会根据输入和输出神经元数量来初始化权重,使权重方差在正反向传播中保持一致,减少梯度问题。Kaiming初始化则适用于ReLU及其变体激活函数,能保证经过ReLU激活后的输出方差不变,稳定梯度。
  • 使用残差连接:通过跳跃连接让梯度能更直接地传播到前面的层,减少梯度消失的影响。
  • Batch Normalization:对数据进行归一化,减少内部协变量偏移,配合适当的权重初始化,提高模型的稳定性,减少梯度消失的发生。

5. 编程实战案例

通过构建两个深度神经网络,一个使用sigmoid激活函数,另一个使用ReLU激活函数,对比两者的损失曲线。代码如下:

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
import matplotlib.pyplot as plt# 生成简单数据集
np.random.seed(0)
X = np.random.randn(100, 1)
y = 3 * X + 2 + 0.5 * np.random.randn(100, 1)
X = torch.FloatTensor(X)
y = torch.FloatTensor(y)# 定义一个深度神经网络,使用sigmoid激活函数
class DeepNetwithSigmoid(nn.Module):def __init__(self, input_size, hidden_size, num_layers):super(DeepNetwithSigmoid, self).__init__()self.input_size = input_sizeself.hidden_size = hidden_sizeself.num_layers = num_layerslayers = []for i in range(num_layers):if i == 0:layers.append(nn.Linear(input_size, hidden_size))else:layers.append(nn.Linear(hidden_size, hidden_size))layers.append(nn.Sigmoid())layers.append(nn.Linear(hidden_size, 1))self.layers = nn.Sequential(*layers)def forward(self, x):return self.layers(x)# 实例化模型、损失函数和优化器
input_size = 1
hidden_size = 10
num_layers = 10
model_sigmoid = DeepNetwithSigmoid(input_size, hidden_size, num_layers)
criterion = nn.MSELoss()
optimizer = optim.SGD(model_sigmoid.parameters(), lr=0.01)# 训练模型
num_epochs = 500
losses_sigmoid = []
for epoch in range(num_epochs):optimizer.zero_grad()outputs = model_sigmoid(X)loss = criterion(outputs, y)loss.backward()optimizer.step()losses_sigmoid.append(loss.item())# 定义一个使用ReLU激活函数的深度神经网络
class DeepNetwithReLU(nn.Module):def __init__(self, input_size, hidden_size, num_layers):super(DeepNetwithReLU, self).__init__()self.input_size = input_sizeself.hidden_size = hidden_sizeself.num_layers = num_layerslayers = []for i in range(num_layers):if i == 0:layers.append(nn.Linear(input_size, hidden_size))else:layers.append(nn.Linear(hidden_size, hidden_size))layers.append(nn.ReLU())layers.append(nn.Linear(hidden_size, 1))self.layers = nn.Sequential(*layers)def forward(self, x):return self.layers(x)model_relu = DeepNetwithReLU(input_size, hidden_size, num_layers)
optimizer = optim.SGD(model_relu.parameters(), lr=0.01)
losses_relu = []
for epoch in range(num_epochs):optimizer.zero_grad()outputs = model_relu(X)loss = criterion(outputs, y)loss.backward()optimizer.step()losses_relu.append(loss.item())# 绘制损失曲线
plt.plot(range(num_epochs), losses_sigmoid, label='Sigmoid Activation')
plt.plot(range(num_epochs), losses_relu, label='ReLU Activation')
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.legend()
plt.show()

运行代码后可以看到,使用sigmoid激活函数的网络由于梯度消失问题,损失下降缓慢,而使用ReLU激活函数的网络能有效避免梯度消失,损失下降较快。

梯度爆炸

1. 原理

在反向传播计算梯度时,由于网络层数过多、权重初始化过大或激活函数选择不当等原因,会使梯度值不断增大,呈指数级增长。例如,若权重矩阵过大,在反向传播中,梯度与权重不断相乘,就会导致梯度迅速增大。

2. 影响

模型参数更新幅度过大,训练过程不稳定,无法收敛,甚至模型输出结果异常,无法得到有效模型。

3. 易出现情况

  • 网络层数过深:层数增多时,如果权重等设置不当,梯度在传播中更容易被放大。
  • 激活函数选择不当:虽然不常见,但某些激活函数在特定情况下导数过大,也可能引发梯度爆炸。
  • 权重初始化不合理:权重初始化值过大,在反向传播中,梯度与权重相乘后会不断增大,从而引发梯度爆炸。
  • 数据特征分布差异大:异常大的特征值可能使梯度计算结果异常大,增加梯度爆炸的风险。
  • 学习率设置过高:过高的学习率使参数更新幅度过大,可能导致梯度不断放大,引发梯度爆炸。

4. 解决方法

  • 合理选择激活函数:避免使用易导致梯度爆炸的激活函数。
  • 合适的权重初始化:采用Xavier初始化、Kaiming初始化等方法,合理设置权重初始值。
  • 使用梯度截断技术:当梯度值超过一定阈值时,对梯度进行截断,使其保持在合理范围。
  • 优化网络结构:避免网络过于复杂,降低梯度传播出现问题的可能性。
  • Batch Normalization:通过归一化操作稳定数据分布,避免因输入数据变化过大引发梯度爆炸,同时限制权重更新幅度,降低梯度爆炸的可能性。

5. 编程实战案例

构建一个权重初始化较大的深度神经网络,容易引发梯度爆炸,通过对比不使用梯度截断和使用梯度截断两种情况下的训练过程,观察损失曲线的变化。代码如下:

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
import matplotlib.pyplot as plt# 生成简单数据集
np.random.seed(0)
X = np.random.randn(100, 1)
y = 3 * X + 2 + 0.5 * np.random.randn(100, 1)
X = torch.FloatTensor(X)
y = torch.FloatTensor(y)# 定义一个容易产生梯度爆炸的深度神经网络,权重初始化较大
class DeepNetwithLargeWeights(nn.Module):def __init__(self, input_size, hidden_size, num_layers):super(DeepNetwithLargeWeights, self).__init__()self.input_size = input_sizeself.hidden_size = hidden_sizeself.num_layers = num_layerslayers = []for i in range(num_layers):if i == 0:layer = nn.Linear(input_size, hidden_size)nn.init.normal_(layer.weight, mean=0, std=10)layers.append(layer)else:layer = nn.Linear(hidden_size, hidden_size)nn.init.normal_(layer.weight, mean=0, std=10)layers.append(layer)layers.append(nn.ReLU())layer = nn.Linear(hidden_size, 1)nn.init.normal_(layer.weight, mean=0, std=10)layers.append(layer)self.layers = nn.Sequential(*layers)def forward(self, x):return self.layers(x)# 实例化模型、损失函数和优化器
input_size = 1
hidden_size = 10
num_layers = 10
model_large_weights = DeepNetwithLargeWeights(input_size, hidden_size, num_layers)
criterion = nn.MSELoss()
optimizer = optim.SGD(model_large_weights.parameters(), lr=0.1)# 训练模型,不使用梯度截断
num_epochs = 50
losses_no_clip = []
for epoch in range(num_epochs):optimizer.zero_grad()outputs = model_large_weights(X)loss = criterion(outputs, y)loss.backward()optimizer.step()losses_no_clip.append(loss.item())# 训练模型,使用梯度截断
model_large_weights_clip = DeepNetwithLargeWeights(input_size, hidden_size, num_layers)
optimizer = optim.SGD(model_large_weights_clip.parameters(), lr=0.1)
losses_with_clip = []
for epoch in range(num_epochs):optimizer.zero_grad()outputs = model_large_weights_clip(X)loss = criterion(outputs, y)loss.backward()torch.nn.utils.clip_grad_norm_(model_large_weights_clip.parameters(), max_norm=10)optimizer.step()losses_with_clip.append(loss.item())# 绘制损失曲线
plt.plot(range(num_epochs), losses_no_clip, label='No Gradient Clipping')
plt.plot(range(num_epochs), losses_with_clip, label='Gradient Clipping')
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.legend()
plt.show()

从损失曲线可以看出,不使用梯度截断时,由于梯度爆炸,损失值迅速增大且不稳定;而使用梯度截断后,模型训练相对稳定,损失能够逐渐下降。

常用权重初始化方法及其影响

1. 随机初始化

  • 方法:从均匀分布或正态分布中随机采样初始化权重,例如从均匀分布 U ( − 6 / ( n i n + n o u t ) , 6 / ( n i n + n o u t ) ) U(-\sqrt{6/(n_{in}+n_{out})}, \sqrt{6/(n_{in}+n_{out})}) U(6/(nin+nout) ,6/(nin+nout) )中采样,其中 n i n n_{in} nin n o u t n_{out} nout分别为输入和输出神经元数量。
  • 影响:值过小容易引发梯度消失,过大则会增加梯度爆炸的风险。

2. Xavier初始化(Glorot初始化)

  • 方法:均匀分布时初始化范围是 U ( − 6 / ( n i n + n o u t ) , 6 / ( n i n + n o u t ) ) U(-\sqrt{6/(n_{in}+n_{out})}, \sqrt{6/(n_{in}+n_{out})}) U(6/(nin+nout) ,6/(nin+nout) ),正态分布时均值为0,方差为 2 / ( n i n + n o u t ) 2/(n_{in}+n_{out}) 2/(nin+nout)
  • 影响:使权重方差在正反向传播中保持一致,让梯度平稳传播,减少梯度问题,提升训练的稳定性和收敛速度。

3. Kaiming初始化(He初始化)

  • 方法:正态分布时均值为0,方差为 2 / n i n 2/n_{in} 2/nin;均匀分布时范围是 U ( − 6 / n i n , 6 / n i n ) U(-\sqrt{6/n_{in}}, \sqrt{6/n_{in}}) U(6/nin ,6/nin ) n i n n_{in} nin为输入神经元数量。
  • 影响:适用于ReLU及其变体激活函数,保证经过ReLU激活后的输出方差不变,稳定梯度,有效缓解梯度消失,在深层网络中效果显著。

4. Batch Normalization中的权重初始化

  • 方法:卷积层或全连接层后的权重常初始化为单位矩阵或接近单位矩阵,偏置项初始化为0。Batch Normalization层中,可学习参数 γ \gamma γ β \beta β通常初始化为1和0。
  • 影响:Batch Normalization减少内部协变量偏移,使网络对权重初始化不那么敏感,配合适当的权重初始化,进一步提高模型的稳定性,减少梯度消失和梯度爆炸的发生。

5. 编程实战案例(以Xavier初始化和Kaiming初始化对比为例)

通过构建分别使用Xavier初始化和Kaiming初始化的深度神经网络,对比两者的训练过程。代码如下:

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
import matplotlib.pyplot as plt# 生成简单数据集
np.random.seed(0)
X = np.random.randn(100, 1)
y = 3 * X + 2 + 0.5 * np.random.randn(100, 1)
X = torch.FloatTensor(X)
y = torch.FloatTensor(y)# 定义一个深度神经网络,使用Xavier初始化
class DeepNetwithXavier(nn.Module):def __init__(self, input_size, hidden_size, num_layers):super(DeepNetwithXavier, self).__init__()self.input_size = input_sizeself.hidden_size = hidden_sizeself.num_layers = num_layerslayers = []for i in range(num_layers):if i == 0:layer = nn.Linear(input_size, hidden_size)nn.init.xavier_uniform_(layer.weight)layers.append(layer)else:layer = nn.Linear(hidden_size, hidden_size)nn.init.xavier_uniform_(layer.weight)layers.append(layer)layers.append(nn.ReLU())layer = nn.Linear(hidden_size, 1)nn.init.xavier_uniform_(layer.weight)layers.append(layer)self.layers = nn.Sequential(*layers)def forward(self, x):return self.layers(x)# 定义一个深度神经网络,使用Kaiming初始化
class DeepNetwithKaiming(nn.Module):def __init__(self, input_size, hidden_size, num_layers):super(DeepNetwithKaiming, self).__init__()self.input_size = input_sizeself.hidden_size = hidden_sizeself.num_layers = num_layerslayers = []for i in range(num_layers):if i == 0:layer = nn.Linear(input_size, hidden_size)nn.init.kaiming_uniform_(layer.weight)layers.append(layer)else:layer = nn.Linear(hidden_size, hidden_size)nn.init.kaiming_uniform_(layer.weight)layers.append(layer)layers.append(nn.ReLU())layer = nn.Linear(hidden_size, 1)nn.init.kaiming_uniform_(layer.weight)layers.append(layer)self.layers = nn.Sequential(*layers)def forward(self, x):return self.layers(x)# 实例化模型、损失函数和优化器
input_size = 1
hidden_size = 10
num_layers = 10
model_xavier = DeepNetwithXavier(input_size, hidden_size, num_layers)
model_kaiming = DeepNetwithKaiming(input_size, hidden_size, num_layers)
criterion = nn.MSELoss()
optimizer_xavier = optim.SGD(model_xavier.parameters(), lr=0.01)
optimizer_kaiming = optim.SGD(model_kaiming.parameters(), lr=0.01)# 训练使用Xavier初始化的模型
num_epochs = 500
losses_xavier = []
for epoch in range(num_epochs):optimizer_xavier.zero_grad()outputs = model_xavier(X)loss = criterion(outputs, y)loss.backward()optimizer_xavier.step()losses_xavier.append(loss.item())# 训练使用Kaiming初始化的模型
losses_kaiming = []
for epoch in range(num_epochs):optimizer_kaiming.zero_grad()outputs = model_kaiming(X)loss = criterion(outputs, y)loss.backward
http://www.dtcms.com/wzjs/596728.html

相关文章:

  • o2o的网站有哪些糖果网站建设策划书模板
  • 织梦绿色企业网站模板免费网页制作平台
  • 网站建设必会的软件多城市分站站群cms
  • 外贸的订单在哪个网站找合肥网站建设价格
  • 网站开发采购合同模板下载实实通信的视频网站怎么做
  • 哪个公司可以做网站常德网站开发服务
  • 已经有网站了 怎么做app网站技术支持是什么
  • 网站设计排版怎么做wordpress浮动关注我们
  • 网站建设具备哪些技术人员网站转app免费
  • 建模网站wordpress 改地址
  • 网站免费网站app郑州建设网站公司
  • 佛山市企业网站建设平台界首网站优化公司
  • 怎么用flash做游戏下载网站软件工程4大证书
  • 工信部网站备案查询 验证码互联网产品推广
  • 怎么将dw做的网站导出wordpress getpagenumlink
  • 房山重庆网站建设电商开放平台
  • 怎么做社交网站引流到亚马逊营销网络用语是什么意思
  • 好的网站页面wordpress盗版模板
  • 厦门建设局网站中标结果查询足球比赛直播app下载
  • oracle 网站开发网络规划设计师报名费
  • 西安 网站建设企业自建网站营销
  • 哪些网站做的好处和坏处无锡网站建设哪家做得比较好
  • 佛山网站建设 奇锐科技如何做淘宝的站外网站推广
  • 普通网站温州推广团队
  • 建设银行流水账网站查询wordpress语音插件
  • 公司做网站收费免费WAP建导航网站
  • 聊天网站建设巨量千川推广怎么收费
  • 设计网站大全国内南安市住房和城乡建设部网站
  • 网上有哪些网站做兼职网站建设 铭阳传媒
  • 不需要证件做网站教育网站建设方案模板