当前位置：首页 > news >正文

李沐深度学习笔记D3-基础的优化方法

news 2025/11/12 6:38:07

计算梯度(梯度下降)

上章讲了除了线性模型有最优解外，大部分复杂的模型都不能得出最优解，我们可以用最前面的一个知识来寻找更优解，这个知识就是梯度下降，具体可以回看我之前的文档，一个曲线的梯度向量，代表偏离当前曲线发展趋势最大的方向，那么想要最优解，就要使梯度下降。

这里引入一个名词参数：学习率 = 学习的步长
每走一步，执行一次梯度计算，再调整参数看如何能使梯度下降。

所以学习率不能太小，因为太小就代表需要计算梯度的次数变多，会消耗更多性能；但也不能太大，太大可能导致数据失真；

最常用梯度下降版本：小批量梯度下降

为什么不直接计算梯度，原因是每次计算梯度都要求全部数据的训练损失率，成本很高。

我们可以使用随机小批量的样本数据，求平均值，这样来降低计算成本，这就是小批量梯度下降

批量不应太小，太小可能会使模型训练使用的gpu性能浪费，也不应太大，太大内存消耗太大

总结

在这里插入图片描述

求梯度的过程其实就是求导的过程，而我们的深度学习框架中集成了帮我们自动求导的函数，所以我们经常不需要关心具体的求导逻辑，只需要使用就可以了。
为了控制成本，我们会进行小批量随机计算梯度，并用梯度下降的方向进行模型的优化
批量的大小和学习率的设置要适度，后续会具体学习如何设置合适的批量大小和学习率

查看全文

http://www.dtcms.com/a/597032.html

【MCP：七千字图文详解】从灵感闪现到生态确立，全链路解读与实战

GitHub 热榜项目 - 日榜(2025-11-11)

OpenCV图像亮度与对比度调整

应急响应基础

jsp技术做网站有什么特点免费软件下载网站入口正能量

WSL2下Ubuntu20.04图形化环境配置

Ubuntu单用户

h5制作网站哪个好杭州做网站的公司

软装设计师常用网站英文网站建设一般多少钱

数据结构之顺序表（动态）

Prover9/Mace4 的形式化语言简介

CSDN文章如何转出为PDF文件保存

多级缓存解决方案

C++ 二分查找（Binary Search）：从原理到实战的全面解析

Synbo Protocol 受邀出席ETHShanghai 2025，以共识机制重构链上融资生态

软考系统架构设计师历年真题集萃（198）—— 2025年11月系统架构设计师真题1

专业网站开发服务电商网站建设哪个好

哈希表和unordered_map和unordered_set

HTTP报文格式

厦门网页建站申请费用怎么找出网站的备案号

maven专题

渭南市住房和城乡建设局官方网站定制网站和模板网站及仿站的区别

Data Agent业务场景方案分析

AWS ALB 和目标组异常事件监控实战

python中模拟浏览器操作之playwright使用说明以及打包浏览器驱动问题

pnpm环境下防止误使用npm的方法

服务器证书与网站不符2020中国企业500强榜单

医疗电子试验箱生物电子实验箱生物医学教学平台嵌入式生物医学电子实验箱

网易云音乐解析（无损音乐均可下载）

android StateFlow和sharedflow

计算梯度(梯度下降)

最常用梯度下降版本：小批量梯度下降

总结

相关文章：