当前位置: 首页 > wzjs >正文

Discuz网站制作教程2345网址导航智能主板

Discuz网站制作教程,2345网址导航智能主板,折页在线设计平台,2023新的病毒又来了是真的吗一,关于learning rate的讨论:(1)在梯度下降的过程中,当我们发现loss的值很小的时候,这时我们可能以为gradident已经到了local min0(低谷),但是很多时候,loss很小并不是因…

一,关于learning rate的讨论:

(1)在梯度下降的过程中,当我们发现loss的值很小的时候,这时我们可能以为gradident已经到了local min=0(低谷),但是很多时候,loss很小并不是因为已经到达了低谷,而是(如下图):

如上图,当右上角的loss几乎为0时,右下角的gradient并没有趋近于0,而是出现反复的极值 ,这种情况下是因为learning rate过大,是的变化的幅度过大,是的optimisization卡在山腰(如左下角)。


(2)然而,我们指的learning rate并不是越大越好,也不是越小越好。

如上图左下角,因为learning rate过大,使得梯度跨度过大不能进入低谷到达黄色叉叉,而如果选择 learning rate过大,梯度移动缓慢,在进入低谷后在大updates之后还是难以到达黄色叉叉。


因为,我们需要一个自动化改变的learning rate,在坡度较陡的时候减小learning rate,在坡度较小的时候增大.

这时,我们想着在之前的learning rate 下加一个随i变化的δ。

δ的求法如下:
(第一种求法)δ是前面所有gradient绝对值的均方

(第二种求法) :第一种的缺点是,因为是全部平均,难以在陡的地方快速减小gradident,在缓的地方减小gradident。为此,我们添加了α权重,减少之前的梯度影响,但又保留一定的惯性。

但是呢,运行后的结果会出现:

 这是因为,在y轴方向,一开始较陡,δ较大,当左转进入较缓的低谷时,δ中的gardient不断增大,当前面的大gradient的和影响不断减小,由当前的δ占主导时,小δ使得y轴learning rate突然增大,发生沿y方向移动,之后由于遇上陡坡,learning rate减小而返回。


解决方法:让learning rate n也随着t减小(有点模拟退火的思维)

还有一个方法:进行预加热(Warm up)。

Warmup的核心思想是在训练的初始阶段,将学习率从较小的值逐步增加到预设的目标值,而不是直接使用较大的学习率。这一过程类似于“热身”,让模型在训练初期逐步适应数据分布,从而减少训练的不稳定性。

今天就学到这啦。 

http://www.dtcms.com/wzjs/115330.html

相关文章:

  • 河间市做网站价格免费网页代码大全
  • 主播网站建设seo优化报告
  • 网站qq临时会话怎么弄开发一个平台需要多少钱
  • 查网站域名备案价格信息流广告素材网站
  • wordpress 网页模板武汉seo网站管理
  • 怎么建设淘宝联盟的网站seo友情链接
  • 网站备案信息核验单重庆seo怎么样
  • 中国城乡建设委员会网站口碑营销公司
  • 北京网站建设方案排名合肥seo网站排名
  • 荣添网站建设优化bt磁力搜索
  • 山东集团网站建设 中企动力微信广告投放推广平台多少费用
  • 莱芜网站建设价格数据分析平台
  • b2c网站的促销策略大学生网页设计作业
  • 怎么做网站访问统计品牌推广思路
  • 永久免费的自助建站东莞seo优化seo关键词
  • 网站营销seo关于网络推广的方法
  • 网站建设流程步骤关键词推广软件
  • 美国站群多ip服务器供应商优化服务内容
  • 网站建设分为哪几种网站服务器搭建
  • 实搜网站建设安卓系统优化app
  • 新乡网站建设价格竞价推广营销
  • 好女人生活常识网站建设无锡网站seo顾问
  • 无锡企业网站制作公司有哪些推一手新闻发稿平台
  • 网站怎么做快捷方式今日最新头条新闻条
  • 做兼职比较正规的网站查排名
  • 新建文档怎么做网站360手机优化大师下载
  • 服务器做视频网站吗杭州网站seo推广软件
  • 网站建设客户需求分析调研表清博大数据舆情监测平台
  • 网站设计制作报告懂得网站推广
  • 清远市seo网站设计联系方式网络营销产品推广方案