当前位置：首页 > wzjs >正文

懂做游戏钓鱼网站的wordpress访客发布审核

wzjs 2025/9/23 7:34:03

懂做游戏钓鱼网站的,wordpress访客发布审核,wordpress 关联微信,织梦网站地图怎么做xml超参数是用于控制训练不同方面的变量。以下是三个常见的超参数： 学习速率批量大小纪元与之相反，参数是模型本身的一部分，例如权重和偏差。换句话说，超参数是您控制的值；参数是模型在训练期间计算的值。学习速…

超参数是用于控制训练不同方面的变量。以下是三个常见的超参数：

学习速率
批量大小
纪元

与之相反，参数是模型本身的一部分，例如权重和偏差。换句话说，超参数是您控制的值；参数是模型在训练期间计算的值。

» 学习速率

学习率是您设置的浮点数，会影响模型收敛的速度。如果学习率过低，模型可能需要很长时间才能收敛。但是，如果学习速率过高，模型将永远不会收敛，而是在最小化损失的权重和偏差之间来回跳动。目标是选择一个学习速率，使其既不太高也不太低，以便模型快速收敛。

学习速率决定了在梯度下降过程的每一步中对权重和偏差进行的更改幅度。模型会将梯度乘以学习速率，以确定下一次迭代的模型参数（权重和偏差值）。在梯度下降的第三步中，向负斜率方向移动的“小量”是指学习速率。

旧模型参数与新模型参数之间的差异与损失函数的斜率成正比。例如，如果斜率较大，模型会迈出较大的步伐。如果小，则只需迈出小步。例如，如果梯度幅度为 2.5，学习率为 0.01，则模型将将参数更改 0.025。

理想的学习率有助于模型在合理的迭代次数内收敛。在图 1 中，损失曲线显示模型在前 20 次迭代中取得了显著改进，然后才开始收敛：

图 21. 损失曲线，在趋于平缓之前显示陡峭的斜坡。

- 图 1 -

损失图，显示使用快速收敛的学习率训练的模型。

相反，学习率过低可能会需要过多的迭代才能收敛。在图 2 中，损失曲线显示模型在每次迭代后仅会略有改进：

图 22。损失曲线显示的斜率几乎为 45 度。

- 图 2 -

损失图，显示使用较小学习速率训练的模型。

学习速率过高时，模型永远不会收敛，因为每次迭代都会导致损失值波动或持续增加。在图 3中，损失曲线显示模型在每次迭代后损失先减小后增大，而在图 4 中，损失在后续迭代中会增加：

图 23. 显示锯齿状上下线的损失曲线。

- 图 3 -

损失图，显示使用过大学习率训练的模型，其中损失曲线会大幅波动，随着迭代次数的增加而上下波动。

- 图 4 -

损失图，显示使用过大学习速率训练的模型，其中损失曲线在后续迭代中急剧增加。

» 批次大小

批量大小是一个超参数，表示模型在更新权重和偏差之前处理的示例数量。您可能会认为，模型应先计算数据集中每个示例的损失，然后再更新权重和偏差。但是，如果数据集包含数十万甚至数百万个示例，使用完整批处理是不切实际的。

以下两种常用技术可在平均情况下获取正确的梯度，而无需在更新权重和偏差之前查看数据集中的每个示例，这两种技术分别是随机梯度下降和小批量随机梯度下降：

随机梯度下降法 (SGD)：

随机梯度下降法每次迭代只使用一个示例（批量大小为 1）。在进行足够的迭代后，SGD 会起作用，但噪声很大。“噪声”是指训练期间的变化，会导致在迭代过程中损失增加而不是减少。“随机”一词表示每个批次包含的一个示例是随机选择的。

请注意下图中，随着模型使用 SGD 更新其权重和偏差，损失如何略有波动，这可能会导致损失图表中出现噪声：

图 25. 损失曲线陡峭，但会趋于平缓，并且存在大量细微波动。

- 图 5 -

使用随机梯度下降法 (SGD) 训练的模型，损失曲线中显示了噪声。

请注意，使用随机梯度下降法可能会在整个损失曲线中产生噪声，而不仅仅是在收敛附近。

小批次随机梯度下降法 (mini-batch SGD)：

小批次随机梯度下降法是全批次梯度下降法和 SGD 之间的折衷方案。对于 N 个数据点，批处理大小可以是任何大于 1 且小于 N 的数字。模型会随机选择每个批处理中包含的示例，对其梯度求平均值，然后每迭代一次更新权重和偏差。

确定每个批次的示例数量取决于数据集和可用的计算资源。一般来说，批量大小较小时，其行为类似于 SGD；批量大小较大时，其行为类似于全批梯度下降。

图 26。损失曲线开始趋于平缓，在收敛时波动幅度更小。

- 图 6 -

使用小批量随机梯度下降法训练的模型。

在训练模型时，您可能会认为噪声是一种不良特征，应予以消除。不过，适当的噪声也未尝不可。在后续模块中，您将了解噪声如何帮助模型更好地泛化，以及如何在神经网络中找到最佳权重和偏差。

» 周期数

在训练期间，一个周期表示模型已处理训练集中的每个示例一次。例如，假设训练集包含 1,000 个示例，小批量大小为 100 个示例，则模型需要 10 个迭代才能完成一个 epoch。

训练通常需要进行多次迭代。也就是说，系统需要多次处理训练集中的每个示例。

迭代次数是您在模型开始训练之前设置的超参数。在许多情况下，您需要进行实验，以确定模型需要多少个周期才能收敛。一般来说，训练周期越多，模型越好，但训练时间也越长。

图 27. 一个完整批次是指整个数据集，一个小批次是指数据集的一部分，一个周期是指对 10 个小批次进行完整传递。

- 图 7：完整批次与小批次 -

下表介绍了批处理大小和迭代次数与模型更新其参数的次数之间的关系。

http://www.dtcms.com/wzjs/838510.html

相关文章：

做电影网站犯法吗seo顾问多少钱

快速提升网站排名跨境电商亚马逊

元素网站知道百度

广州市网站建设公司在哪里网上购物网站开发开题报告

佛山网站建设培训班一站式营销型网站建设服务

涉县网站wordpress添加播放器代码

济宁华园建设有限公司网站免费网站空间php

辽宁做网站哪家好做装修网站公司

外贸seo网站建设网站设计实施方案

我是做环保类产品注册哪些浏览量大的网站推销自己的产品比较好呢建国汽车网址大全

使用flashfxp上传网站有没有免费建站

找加工厂上什么网站建设工程自学网站

免费网站模板下载大全下载wordpress 股票交易

高古楼网站做窗子网站添加百度商桥

安徽津城建设工程有限公司网站竞价防恶意点击

网站开发工作内容酒店加盟

html5 网站推荐集运网站建设

深圳三站合一网站建设模板网站制作时间

微信制作网站设计汉阳做网站多少钱

怎样设计一个公司网站学校网站设计思路

网站机房建设流程怎么做电影网站不违法吗

中国十大旅游网站安吉做网站

网站建设栏目标语口号8个实用的wordpress数据库技巧

php图书管理系统网站开发南宁关键词自然排名

网站建设用户登录网站开发运行及维护

iis7如何部署网站网络推广的方式有哪些?

泰安网站建设渠道怎么二次开发wordpress

网站开发规模和工作量的计算wordpress 插件新页面

自己弄一个网站要多少钱内网门户网站建设方案

微信公众号分享wordpress百度快照优化公司