当前位置: 首页 > wzjs >正文

保定哪家做网站好长尾关键词挖掘精灵官网

保定哪家做网站好,长尾关键词挖掘精灵官网,网页设计作品文字分析,请人做装修设计上什么网站优化算法框架 优化思路 随机梯度下降 随机梯度下降到缺点: SGD 每一次迭代计算 mini-batch 的梯度,然后对参数进行更新,每次迭代更新使用的梯度都只与本次迭代的样本有关。 因为每个批次的数据含有抽样误差,每次更新可能并不会 …

优化算法框架

在这里插入图片描述

优化思路

随机梯度下降

在这里插入图片描述
随机梯度下降到缺点:
SGD 每一次迭代计算 mini-batch 的梯度,然后对参数进行更新,每次迭代更新使用的梯度都只与本次迭代的样本有关。

  • 因为每个批次的数据含有抽样误差,每次更新可能并不会
    按照正确的方向进行,因此可能带来优化波动(扰动)
  • SGD 最大的缺点是下降速度慢,而且可能会在沟壑的两
    边持续震荡,停留在一个局部最优点

弥补方法

动量(SGD with Momentum)

在这里插入图片描述
当到达左边的最低点时,会在这个低谷来回震荡而无法继续优化函数。
如果增加一个动量就能帮助函数越过低谷继续优化。
原理:
在这里插入图片描述
这使得参数更新的更加平缓,不会有突然发生巨变的情况,有助于避免震荡。

自适应梯度下降(AdaGrad: Adaptive Gradient)

这是一种利用概率统计的方法动态调整学习率大小从而避免优化时来回震荡的方法。
当距离最优解较远时,期望参数更新的步长(学习率 𝛼 )大一些,以便更快收敛到最优解。反之步长减小。

自适应运动(矩)估计(Adam: adaptive moment estimation)

Adam: 融合 Momentum 和 AdaGrad 的思想优化算法,广泛用于深度学习应用中,尤其是计算机视觉和自然语言处理等任务。
Adam 涉及一阶矩和二阶矩

  • 一阶矩:一阶矩 𝑚𝑡 是梯度的指数移动平均,即对过去梯度的加权平均,类似于Momentum方法
    公式如下:𝑚𝑡 = 𝛽1 ∙ 𝑚𝑡−1 + (1 − 𝛽) ∙ 𝑔𝑡
    其中 𝛽1 是一阶矩的平滑因子(通常设置为 0.9 ), 𝑔𝑡 在第 𝑡 次迭代时计算得到的梯度向量
  • 二阶矩 (梯度平方的均值):即历史梯度平方与当前梯度平方的加权平均,类似AdaGrad 方法,体现了环境感知能力,为不同参数产生自适应的学习速率
    公式如下:𝑣𝑡 = 𝛽2 ∙ 𝑣𝑡−1 + (1 − 𝛽2) ∙ 𝑔𝑡
    其中 𝛽2 是二阶矩的平滑因子(通常设置为 0.999 ), 𝑔𝑡 在第 𝑡 次迭代时计算
    得到的梯度向量,二阶矩在这里的作用是捕捉梯度的波动情况,用于自适应地调整学习率。
    修正偏差
    由于初始时刻 m
0
​
=0、v
0
​
=0,早期估计会偏向零。因此需要修正:

参数更新
在这里插入图片描述
这几种方法均可以在模型中直接调用使用,具体不展开。

http://www.dtcms.com/wzjs/501860.html

相关文章:

  • 徐州 网站制作晨阳seo
  • 苏州建设工程人才招聘网信息网站windows优化大师要钱
  • 网站制作学校要的重庆网站制作公司
  • 什么后台做网站安全河南网站顾问
  • wordpress 图片保护关键词优化公司排名榜
  • 敏感网站用什么浏览器淘宝流量
  • 怎么样做网站爬虫樱桃bt官网
  • 成都学校网站制作武汉最新消息今天
  • 四川省建设工程招标网官网专业优化网站排名
  • 政府网站建设工作的自查报告哪里有免费的网站推广服务
  • 做课展网站seo是什么意思电商
  • 网站开发软件技术专业好吗百度客服24小时人工服务
  • 做外贸网站哪家效果好学seo优化
  • 欧美网站设计特点seo工资一般多少
  • 用node做的网站sem竞价
  • 望京做网站静态网页设计与制作
  • 广州网站运营专业乐云seoseo初学教程
  • 平面设计网课培训有用吗爱站网seo工具包
  • 网站备案进度查询营销平台
  • 网站制作公司小邓长春做网络优化的公司
  • 创建网站 英文广告营销策略
  • 中央广播电视总台央视少儿客户端深圳网络优化推广公司
  • 自己本地可以做网站服务器能去百度上班意味着什么
  • 商标注册在哪个部门申请海外aso优化
  • wordpress文章框seo运营人士揭秘
  • 南通开发区:高质量发展百度seo搜索引擎优化方案
  • 做网站互联网公司排名软文代写费用
  • 国外vps私人网站优化排名软件推广
  • 学校校园网站建设方案深圳网站关键词排名优化
  • 宁夏做网站建设公司百度引擎入口