当前位置：首页 > wzjs >正文

网站开发数据库课程设计网络技术基础

wzjs 2025/9/16 15:10:11

网站开发数据库课程设计,网络技术基础,好一点的app开发公司,PHP网站新闻发布怎么做以下内容为结合李沐老师的课程和教材补充的学习笔记，以及对课后练习的一些思考，自留回顾，也供同学之人交流参考。本节课程地址：72 优化算法【动手学深度学习v2】_哔哩哔哩_bilibili 本节教材地址：11.11. 学习率调度器 — 动手学深度学习 2.0.0 documentation 本节开源…

以下内容为结合李沐老师的课程和教材补充的学习笔记，以及对课后练习的一些思考，自留回顾，也供同学之人交流参考。

本节课程地址：72 优化算法【动手学深度学习v2】_哔哩哔哩_bilibili

本节教材地址：11.11. 学习率调度器 — 动手学深度学习 2.0.0 documentation

本节开源代码：...>d2l-zh>pytorch>chapter_optimization>lr-scheduler.ipynb

学习率调度器

到目前为止，我们主要关注如何更新权重向量的优化算法，而不是它们的更新速率。然而，调整学习率通常与实际算法同样重要，有如下几方面需要考虑：

首先，学习率的大小很重要。如果它太大，优化就会发散；如果它太小，训练就会需要过长时间，或者我们最终只能得到次优的结果。我们之前看到问题的条件数很重要（有关详细信息，请参见 11.6节）。直观地说，这是最不敏感与最敏感方向的变化量的比率。
其次，衰减速率同样很重要。如果学习率持续过高，我们可能最终会在最小值附近弹跳，从而无法达到最优解。 11.5节比较详细地讨论了这一点，在 11.4节中我们则分析了性能保证。简而言之，我们希望速率衰减，但要比 O(t−12) 慢，这样能成为解决凸问题的不错选择。
另一个同样重要的方面是初始化。这既涉及参数最初的设置方式（详情请参阅 4.8节），又关系到它们最初的演变方式。这被戏称为预热（warmup），即我们最初开始向着解决方案迈进的速度有多快。一开始的大步可能没有好处，特别是因为最初的参数集是随机的。最初的更新方向可能也是毫无意义的。
最后，还有许多优化变体可以执行周期性学习率调整。这超出了本章的范围，我们建议读者阅读 (Izmailovet al., 2018">"https://zh-v2.d2l.ai/chapter_references/zreferences.html#id76">Izmailovet al., 2018) 来了解个中细节。例如，如何通过对整个路径参数求平均值来获得更好的解。

鉴于管理学习率需要很多细节，因此大多数深度学习框架都有自动应对这个问题的工具。在本章中，我们将梳理不同的调度策略对准确性的影响，并展示如何通过学习率调度器（learning rate scheduler）来有效管理。

一个简单的问题

我们从一个简单的问题开始，这个问题可以轻松计算，但足以说明要义。为此，我们选择了一个稍微现代化的LeNet版本（激活函数使用relu而不是sigmoid，汇聚层使用最大汇聚层而不是平均汇聚层），并应用于Fashion-MNIST数据集。此外，我们混合网络以提高性能。由于大多数代码都是标准的，我们只介绍基础知识，而不做进一步的详细讨论。如果需要，请参阅第6章进行复习。

%matplotlib inline
import math
import torch
from torch import nn
from torch.optim import lr_scheduler
from d2l import torch as d2ldef net_fn():model = nn.Sequential(nn.Conv2d(1, 6, kernel_size=5, padding=2), nn.ReLU(),nn.MaxPool2d(kernel_size=2, stride=2),nn.Conv2d(6, 16, kernel_size=5), nn.ReLU(),nn.MaxPool2d(kernel_size=2, stride=2),nn.Flatten(),nn.Linear(16 * 5 * 5, 120), nn.ReLU(),nn.Linear(120, 84), nn.ReLU(),nn.Linear(84, 10))return modelloss = nn.CrossEntropyLoss()
device = d2l.try_gpu()batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size=batch_size)# 代码几乎与d2l.train_ch6定义在卷积神经网络一章LeNet一节中的相同
def train(net, train_iter, test_iter, num_epochs, loss, trainer, device,scheduler=None):net.to(device)animator = d2l.Animator(xlabel='epoch', xlim=[0, num_epochs],legend=['train loss', 'train acc', 'test acc'])for epoch in range(num_epochs):metric = d2l.Accumulator(3)  # train_loss,train_acc,num_examplesfor i, (X, y) in enumerate(train_iter):net.train()trainer.zero_grad()X, y = X.to(device), y.to(device)y_hat = net(X)l = loss(y_hat, y)l.backward()trainer.step()with torch.no_grad():metric.add(l * X.shape[0], d2l.accuracy(y_hat, y), X.shape[0])train_loss = metric[0] / metric[2]train_acc = metric[1] / metric[2]if (i + 1) % 50 == 0:animator.add(epoch + i / len(train_iter),(train_loss, train_acc, None))test_acc = d2l.evaluate_accuracy_gpu(net, test_iter)animator.add(epoch+1, (None, None, test_acc))if scheduler:if scheduler.__module__ == lr_scheduler.__name__:# UsingPyTorchIn-Builtschedulerscheduler.step()else:# Usingcustomdefinedschedulerfor param_group in trainer.param_groups:param_group['lr'] = scheduler(epoch)print(f'train loss {train_loss:.3f}, train acc {train_acc:.3f}, 'f'test acc {test_acc:.3f}')

让我们来看看如果使用默认设置，调用此算法会发生什么。例如设学习率为 0.3 并训练 30 次迭代。留意在超过了某点、测试准确度方面的进展停滞时，训练准确度将如何继续提高。两条曲线之间的间隙表示过拟合。

lr, num_epochs = 0.3, 30
net = net_fn()
trainer = torch.optim.SGD(net.parameters(), lr=lr)
train(net, train_iter, test_iter, num_epochs, loss, trainer, device)

输出结果：
train loss 0.159, train acc 0.939, test acc 0.884

学习率调度器

我们可以在每个迭代轮数（甚至在每个小批量）之后向下调整学习率。例如，以动态的方式来响应优化的进展情况。

lr = 0.1
trainer.param_groups[0]["lr"] = lr
print(f'learning rate is now {trainer.param_groups[0]["lr"]:.2f}')

输出结果：
learning rate is now 0.10

更通常而言，我们应该定义一个调度器。当调用更新次数时，它将返回学习率的适当值。让我们定义一个简单的方法，将学习率设置为 $\eta = \eta_0 (t + 1)^{-\frac{1}{2}}$ 。

class SquareRootScheduler:def __init__(self, lr=0.1):self.lr = lrdef __call__(self, num_update):return self.lr * pow(num_update + 1.0, -0.5)

文章转载自：

http://E742ARvO.LzqdL.cn
http://j2IcTlaT.LzqdL.cn
http://apYWezFG.LzqdL.cn
http://xEuvizlc.LzqdL.cn
http://UN7HVosu.LzqdL.cn
http://LrD2Gsgk.LzqdL.cn
http://SHOVriMI.LzqdL.cn
http://zX5T1Ztl.LzqdL.cn
http://6pZgnZsm.LzqdL.cn
http://GJEpBvj3.LzqdL.cn
http://SIjEcSCa.LzqdL.cn
http://f2TqsDxL.LzqdL.cn
http://m8ymawsx.LzqdL.cn
http://u8yncmzP.LzqdL.cn
http://LET4zPQt.LzqdL.cn
http://fYRvjeQA.LzqdL.cn
http://7uh3TG5e.LzqdL.cn
http://Lhbvt4qq.LzqdL.cn
http://1cHRhUHY.LzqdL.cn
http://WC0PU3XC.LzqdL.cn
http://IGFln4s1.LzqdL.cn
http://WX45YqC8.LzqdL.cn
http://PlV4OWub.LzqdL.cn
http://Ljn7ulDc.LzqdL.cn
http://9csO0vQA.LzqdL.cn
http://1VfpeFEn.LzqdL.cn
http://WhSJs7BZ.LzqdL.cn
http://u2rVh6x3.LzqdL.cn
http://sVDScN54.LzqdL.cn
http://RiW6dZtZ.LzqdL.cn

查看全文

http://www.dtcms.com/wzjs/756011.html

网站建设详细流官方app下载立即下载

自己做网站接入微信和支付宝wordpress 文章发布

365网站房地产培训网站建设

网站都有什么费用网站建设最快多长时间

上海网站建设开网站开发文档网站

烟台微网站做网站需要一些什么东西

徐州网站制作企业wordpress页面添加js

iis打开网站变成下载怎样进入医院公众号

网站大全正能量免费2020网站开发实践教程

先进的网站设计公司新浪微博网站建设

网站建设哪几家好一些做网站要霸屏吗

网站推广的技术网站制作教程书籍

郑州网站建设wordpress开放平台

学校网站建设联系电话企业在阿里做网站是什么意思

可以加外链的网站做网站先做母版页

网站黑链社交信息共享网站开发外包

php网站开发工程师招聘网wordpress 论坛整合

怎么做网站的站点地图金阊网站建设

做的比较好的官方网站用frontpage做网站

海城做网站公司国内网页设计公司前十名

建中英文网站seo排名点击器原理

苏州网站开发公司济南兴田德润o厉害吗dw 做静态网站

旅游网站规划建设seo优化关键词哪家好

重庆网站制作服务阿里云虚拟主机wordpress

网站备案要关站吗做头像的网站自己的名字

做app网站有哪些功能如何用个门户网站做销售

php网站开发什么免费企业邮箱如何申请

江苏建新建设集团有限公司网站2019还有人做网站淘宝客吗

js弹出网站简单易做的网站

学习率调度器

一个简单的问题

学习率调度器

相关文章：