当前位置: 首页 > wzjs >正文

哪个网站做五金冲压的百度云搜索引擎入口

哪个网站做五金冲压的,百度云搜索引擎入口,网站作业代做,广东疫情为什么这么严重超参数是用于控制训练不同方面的变量。以下是三个常见的超参数: 学习速率 批量大小 纪元 与之相反,参数是模型本身的一部分,例如权重和偏差。换句话说,超参数是您控制的值;参数是模型在训练期间计算的值。 学习速…

超参数是用于控制训练不同方面的变量。以下是三个常见的超参数:

  • 学习速率

  • 批量大小

  • 纪元

与之相反,参数是模型本身的一部分,例如权重和偏差。换句话说,超参数是您控制的值;参数是模型在训练期间计算的值。

» 学习速率

学习率是您设置的浮点数,会影响模型收敛的速度。如果学习率过低,模型可能需要很长时间才能收敛。但是,如果学习速率过高,模型将永远不会收敛,而是在最小化损失的权重和偏差之间来回跳动。目标是选择一个学习速率,使其既不太高也不太低,以便模型快速收敛。

学习速率决定了在梯度下降过程的每一步中对权重和偏差进行的更改幅度。模型会将梯度乘以学习速率,以确定下一次迭代的模型参数(权重和偏差值)。在梯度下降的第三步中,向负斜率方向移动的“小量”是指学习速率。

旧模型参数与新模型参数之间的差异与损失函数的斜率成正比。例如,如果斜率较大,模型会迈出较大的步伐。如果小,则只需迈出小步。例如,如果梯度幅度为 2.5,学习率为 0.01,则模型将将参数更改 0.025。

理想的学习率有助于模型在合理的迭代次数内收敛。在图 1 中,损失曲线显示模型在前 20 次迭代中取得了显著改进,然后才开始收敛:

图 21. 损失曲线,在趋于平缓之前显示陡峭的斜坡。

- 图 1 -

损失图,显示使用快速收敛的学习率训练的模型。

相反,学习率过低可能会需要过多的迭代才能收敛。在图 2 中,损失曲线显示模型在每次迭代后仅会略有改进:

图 22。损失曲线显示的斜率几乎为 45 度。

- 图 2 -

损失图,显示使用较小学习速率训练的模型。

学习速率过高时,模型永远不会收敛,因为每次迭代都会导致损失值波动或持续增加。在图 3中,损失曲线显示模型在每次迭代后损失先减小后增大,而在图 4 中,损失在后续迭代中会增加:

图 23. 显示锯齿状上下线的损失曲线。

- 图 3 -

损失图,显示使用过大学习率训练的模型,其中损失曲线会大幅波动,随着迭代次数的增加而上下波动。

图片

- 图 4 -

损失图,显示使用过大学习速率训练的模型,其中损失曲线在后续迭代中急剧增加。

» 批次大小

批量大小是一个超参数,表示模型在更新权重和偏差之前处理的示例数量。您可能会认为,模型应先计算数据集中每个示例的损失,然后再更新权重和偏差。但是,如果数据集包含数十万甚至数百万个示例,使用完整批处理是不切实际的。

以下两种常用技术可在平均情况下获取正确的梯度,而无需在更新权重和偏差之前查看数据集中的每个示例,这两种技术分别是随机梯度下降小批量随机梯度下降

  • 随机梯度下降法 (SGD)

    随机梯度下降法每次迭代只使用一个示例(批量大小为 1)。在进行足够的迭代后,SGD 会起作用,但噪声很大。“噪声”是指训练期间的变化,会导致在迭代过程中损失增加而不是减少。“随机”一词表示每个批次包含的一个示例是随机选择的。

请注意下图中,随着模型使用 SGD 更新其权重和偏差,损失如何略有波动,这可能会导致损失图表中出现噪声:

图 25. 损失曲线陡峭,但会趋于平缓,并且存在大量细微波动。

- 图 5 -

使用随机梯度下降法 (SGD) 训练的模型,损失曲线中显示了噪声。

请注意,使用随机梯度下降法可能会在整个损失曲线中产生噪声,而不仅仅是在收敛附近。

  • 小批次随机梯度下降法 (mini-batch SGD)

    小批次随机梯度下降法是全批次梯度下降法和 SGD 之间的折衷方案。对于 N 个数据点,批处理大小可以是任何大于 1 且小于 N 的数字。模型会随机选择每个批处理中包含的示例,对其梯度求平均值,然后每迭代一次更新权重和偏差。

确定每个批次的示例数量取决于数据集和可用的计算资源。一般来说,批量大小较小时,其行为类似于 SGD;批量大小较大时,其行为类似于全批梯度下降。

图 26。损失曲线开始趋于平缓,在收敛时波动幅度更小。

- 图 6 -

使用小批量随机梯度下降法训练的模型。

在训练模型时,您可能会认为噪声是一种不良特征,应予以消除。不过,适当的噪声也未尝不可。在后续模块中,您将了解噪声如何帮助模型更好地泛化,以及如何在神经网络中找到最佳权重和偏差。

» 周期数

在训练期间,一个周期表示模型已处理训练集中的每个示例一次。例如,假设训练集包含 1,000 个示例,小批量大小为 100 个示例,则模型需要 10 个迭代才能完成一个 epoch。

训练通常需要进行多次迭代。也就是说,系统需要多次处理训练集中的每个示例。

迭代次数是您在模型开始训练之前设置的超参数。在许多情况下,您需要进行实验,以确定模型需要多少个周期才能收敛。一般来说,训练周期越多,模型越好,但训练时间也越长。

图 27. 一个完整批次是指整个数据集,一个小批次是指数据集的一部分,一个周期是指对 10 个小批次进行完整传递。

- 图 7:完整批次与小批次 -

下表介绍了批处理大小和迭代次数与模型更新其参数的次数之间的关系。

图片

http://www.dtcms.com/wzjs/267050.html

相关文章:

  • 如何使用微信公众号做网站seo设置是什么
  • 河长制网站建设南阳seo
  • 网站建设都需要哪些资质香水推广软文
  • 炫酷个人网站php源码企业站seo外包
  • 简约个人网站欣赏seo咨询师招聘
  • 关于做批发网站seo是什么专业
  • 知名建筑类的网站镇江seo优化
  • 360网站备案如何开网站呢
  • wordpress搜索结果不存在页面初学seo网站推广需要怎么做
  • 怎么在网站里做宣传外贸b2b平台都有哪些网站
  • 成品网站设计网站广东宣布即时优化调整
  • 澳门做网站找谁西安网站seo工作室
  • 张店网站建设公司搜索网站哪个好
  • 网站 怎么 做压力测试推广平台有哪些
  • wordpress内链工具seo兼职平台
  • 建网站个人主机做服务器网站注册搜索引擎的目的是
  • 织梦网站地图模板修改网络整合营销理论
  • 百度智能云网站建设十大网络舆情案例
  • 网上接手袋做是哪一个网站最有吸引力的营销模式
  • 做网站公司在哪网址查询服务中心
  • 谷歌seo 外贸建站全网推广公司
  • 婚庆门户源码v2.0 婚庆公司网站源码 婚庆网源码 婚庆门户网源码网络营销代运营外包公司
  • 郑州建网站公司软文是什么
  • 材料网站建设点点站长工具
  • 成都高级网站建设免费网页在线客服系统代码
  • 长春的网站建设百度排名竞价
  • 擦边球网站怎么建设友谊平台
  • 哪个网站做二手车买卖今日热点新闻事件简介
  • 百度推广进入后是别的网站 说是服务器问题seo黑帽有哪些技术
  • 丝瓜app向日葵app绿巨人信息流优化师是什么