当前位置: 首页 > wzjs >正文

深圳市建设银行网站首页logo网站设计素材

深圳市建设银行网站首页,logo网站设计素材,企业公司建设网站,免费的电脑优化软件数值稳定性 模型初始化和激活函数 数值稳定性 神经网络的梯度 考虑如下d层的神经网络(t代表层) 计算损失 l 关于参数 Wt 的梯度: 这样的矩阵乘法带来的问题: (1)梯度爆炸 (2)梯度…

数值稳定性 + 模型初始化和激活函数

数值稳定性

神经网络的梯度

  • 考虑如下d层的神经网络(t代表层)
    在这里插入图片描述
  • 计算损失 l 关于参数 Wt 的梯度:

在这里插入图片描述
这样的矩阵乘法带来的问题:
(1)梯度爆炸
(2)梯度消失

在这里插入图片描述

例子:MLP

  • 加入如下MLP(省略偏移)
    在这里插入图片描述
    进行累乘:
    在这里插入图片描述

(1) 梯度爆炸

  • 使用ReLU 作为激活函数
    在这里插入图片描述
    在这里插入图片描述
    假设W中的值都大于1,那么会得到很大的值(梯度爆炸)

  • 梯度爆炸的问题

    • 值超出值域(infinity)
      • 对于 16位浮点数尤为严重(数值区间 6e-5-6e4)
    • 对学习率敏感
      • 如果学习率太大 ->大参数值 ->更大的梯度
      • 如果学习率太小->训练无进展
      • 我们可能需要在训练过程不断调整学习率

(2) 梯度消失

  • 使用 sigmoid作为激活函数
    在这里插入图片描述
    在这里插入图片描述
    当输入相对较大的时候,激活函数的导数会变成0;

  • 梯度消失的问题

    • 梯度值变成 0
      • 对 16 位浮点数尤为严重
    • 训练没有进展
      • 不管如何选择学习率
    • 对于底部层尤为严重
      • 仅仅顶部层训练的较好
      • 无法让神经网络更深(和一个很浅的神经网络没有区别)
        (反向传播,更新参数,w越来越小,最终趋于零,也失去了学习的必要)

总结

  • 当数值过大或者过小时会导致数值问题
  • 常发生在深度模型中,因为其会对n个数累乘

让训练更加稳定

目标:让梯度值在合理的范围内,例如[le-6,1e3]

  • 乘法变加法
    • ResNet, LSTM
  • 归一化:将梯度变成均值为0,方差为1
    • 梯度归一化,梯度裁剪
  • 合理的权重初始和激活函数

模型初始化和激活函数

让每层的方差是一个常数

  • 将每层的输出和梯度都看做随机变量
  • 让它们的均值和方差都保持一致

t: 第t层;i: 第i个变量

假设:我们想要的输出如下:所有的输出和梯度的均值、方差 都在一个常数
在这里插入图片描述

权重初始化

  • 在合理值区间里随机初始参数
  • 训练开始的时候更容易有数值不稳定
    • 远离最优解的地方损失函数表面可能很复杂
    • 最优解附近表面会比较平
  • 使用 N(0,0.01)来初始可能对小网络没问题,但不能保证深度神经网络

如何保证之前的假设成立呢?

例子:MLP

  • 假设:
    在这里插入图片描述
    i.i.d:独立同分布;均值E为0,Var方差为一个常数;当前层的权重和当前层的输入是一个独立事件。

  • 假设没有激活函数:
    在这里插入图片描述
    在这里插入图片描述

实现的目标中的 正向方差:

在这里插入图片描述

【方差公式】方差等于平方的期望减去期望的平方:方差D(X)=E(X^ 2)-E(X)^2
对于和的平方 等价于 每一项的平方+不相等的交叉项的乘积和
第二行的加号后面的累加为0的原因是:之前假设了wt_i,j是独立的同分布(即 i.i.d),那么w_t_i,j的均值就为0,即E(wti,j)=0,即 E(第二行第二项)=0
方差 = 平方的期望 - 期望的平方 现在期望的平方等于0,所以方差 = 平方的期望,可得到第四行
n_t-1:当前第t层的输入的维度

接下来看 反向的均值和方差
注意: (AB)转置=B转置xA转置
和正向类似,老师并没有细推:
在这里插入图片描述
Xavier初始化:(常用的权重初始化的方法)
基于该方式对某层权重初始化时,该层权重的初始化会根据该层的输入维度、输出维度来决定(如权重的方差),尤其是当 输入输出维度不一定、或网络变化比较大时,可以根据输入输出维度来适配权重,使得输出的方差和梯度都在恒定(合理)的范围内
在这里插入图片描述
满足正向和反向的条件很难,但可以取一个折中的方法:即 给定当前第t层的输入维度nt-1和输出维度nt的大小,那么就可以由这俩得到当前第t层的权重的方差γt。

假设 线性的激活函数(只是为了简单理论分析,实际上不可能用线性的激活函数))
在这里插入图片描述
这就说明:为了使正向的输出为均值为0、方差为固定值,则要求线性激活函数的α=1、β=0,即为 输入x本身;
反向,与正向类似:
在这里插入图片描述
也说明:激活函数必须是f(x)=x;

最后,检查真正的激活函数(因为激活函数都是非线性的,而上面是以线性激活函数举例的),如使用泰勒展开:
可以发现下图中tanh和relu在原点处基本都是f(x)=x,虽然sigmoid不过原点,但经过调整后的sigmoid(如下图中蓝线,即 乘四再减二后)也是过原点且在原点处近似为f(x)=x(即 经过调整后的sigmoid函数也能解决以前原sigmoid存在的问题)
请添加图片描述
为何只关注在0点附近的表现是否能满足f(x)=x的要求:因为一般神经网络的权重w的取值都是在0附近的。

QA

  • 问题:nan、inf如何产生,以及怎么解决?
    inf:就是太大,即一般是lr太大权重初始化时太大
    nan一般是 除0

    • 解决:
      合理初始化权重(权重的初始 一般均值为0,方差小一点,当能出现正确的值之后 再慢慢调大权重(的方差)使得训练有进展)
      选择合适的激活函数、选择合适大小的lr(一般是把lr一直往小调 直到inf、nan不出现)
  • 问题:使用ReLU激活函数是如何做到拟合x平方或者三次方这种曲线的?
    不是单独的relu来拟合,而是relu+学习到的权重w 共同作用(只是基于relu提供非线性的特性)

  • 问题:梯度消失可以说是因为使用了sigmoid激活函数引起的对吗?所以我们可以用ReLU替换sigmoid解决梯度消失的问题?
    梯度消失产生的原因有很多种,sigmoid只是其中的一种可能
    用ReLU替换 可以降低 产生梯度消失的概率,但不确保一定能完全解决

  • 问题:梯度爆炸是由什么激活函数引起的吗?
    爆炸的产生和激活函数无关,一般都是由每层的输出太大 然后多个层累乘引起的

  • 问题:resnet还是会出现数值稳定性?
    各种技术都是在缓解、减轻问题,但不是完全解决,用ResNet只是会让数值稳定性更好一点(整个深度学习的进展都是在 让数值更加稳定)

总结

  • 合理的权重初始值和激活函数的选取可以提升数值稳定性

文章转载自:

http://ovVbgRT6.wfdLz.cn
http://m4zzzmzh.wfdLz.cn
http://EBy60WDK.wfdLz.cn
http://LXcbP5BC.wfdLz.cn
http://m1GeTFaP.wfdLz.cn
http://XTz1urKI.wfdLz.cn
http://L8jm1GuF.wfdLz.cn
http://tYKld005.wfdLz.cn
http://YZuECbKQ.wfdLz.cn
http://ysTgVoFV.wfdLz.cn
http://2QLhU3QS.wfdLz.cn
http://wjsWEy8t.wfdLz.cn
http://rVozYok4.wfdLz.cn
http://zzGDfoeD.wfdLz.cn
http://PqBkoAsI.wfdLz.cn
http://AHjqKk0C.wfdLz.cn
http://NVM6TyKz.wfdLz.cn
http://VO3zSHwo.wfdLz.cn
http://zU0KTKoL.wfdLz.cn
http://CwkNwIQG.wfdLz.cn
http://Sw1ZjYbK.wfdLz.cn
http://qRAqLdgr.wfdLz.cn
http://XP3tR31o.wfdLz.cn
http://ZZpyGqIz.wfdLz.cn
http://mDLSqYZw.wfdLz.cn
http://LkVooRsq.wfdLz.cn
http://TYcMgQSA.wfdLz.cn
http://s9nMTclV.wfdLz.cn
http://epca9Pz5.wfdLz.cn
http://EqYjZoV1.wfdLz.cn
http://www.dtcms.com/wzjs/607796.html

相关文章:

  • 纯净软件网站推荐网站seo关键字优化
  • 公司网站建设工作总结深圳坪山新闻
  • 淮南市城乡建设局网站创建网站需要哪些工作
  • 局域网创建网站西安哪个公司可以做网站
  • 美容整形网站模板郑州做手机网站
  • 文安做网站shijuewangwordpress搜索次数
  • 做网站的博客大望路做网站的公司
  • 网站信息系统设计什么网站教你做早点
  • 把网站做app浙江网站优化公司
  • 提供网站建设代驾系统定制开发
  • 出台网站集约化建设通知网站前段打不开 后台也进不去
  • 厦门加盟网站建设重庆十大建筑公司排名
  • 网站制作 数据库竹子建站公司
  • 校园门户网站 建设青岛网络优化推广公司
  • 网站建设流程文字稿手机百度旧版本下载
  • 潍坊市网站优化企业网站建设的三个核心问题
  • 建设投票网站的目的WordPress 模板 自适应
  • 企业内部网站设计wordpress 必备插件
  • 网站建设推广优化展厅设计ppt
  • 网页小游戏网站有哪些怎么对企业进行网站建设
  • 浙江省建设局城市平台网站企业网站建设合同方案
  • 自己服务器做网站主机一线全屋定制10大品牌
  • 云南高端网站制作价格媒体软文发布平台
  • 汕头个人建站模板开发游戏软件公司
  • 如何确定一个网站的关键词怎么制作自己的免费网站
  • react node.js网站开发wordpress注册弹出框
  • wordpress网站好慢南京网站设计网站建设
  • 地方门户网站源码商务信息网官网
  • 平乡网站制作网站建设教程速成
  • 东营网站设计多少钱免费网站图片素材