当前位置: 首页 > news >正文

李沐深度学习笔记D3-基础的优化方法

计算梯度(梯度下降)

上章讲了除了线性模型有最优解外,大部分复杂的模型都不能得出最优解,我们可以用最前面的一个知识来寻找更优解,这个知识就是梯度下降,具体可以回看我之前的文档,一个曲线的梯度向量,代表偏离当前曲线发展趋势最大的方向,那么想要最优解,就要使梯度下降。

这里引入一个名词参数:学习率 = 学习的步长
每走一步,执行一次梯度计算,再调整参数看如何能使梯度下降。

所以学习率不能太小,因为太小就代表需要计算梯度的次数变多,会消耗更多性能;但也不能太大,太大可能导致数据失真;

最常用梯度下降版本:小批量梯度下降

为什么不直接计算梯度,原因是每次计算梯度都要求全部数据的训练损失率,成本很高。

我们可以使用随机小批量的样本数据,求平均值,这样来降低计算成本,这就是小批量梯度下降

批量不应太小,太小可能会使模型训练使用的gpu性能浪费,也不应太大,太大内存消耗太大

总结

在这里插入图片描述

  1. 求梯度的过程其实就是求导的过程,而我们的深度学习框架中集成了帮我们自动求导的函数,所以我们经常不需要关心具体的求导逻辑,只需要使用就可以了。
  2. 为了控制成本,我们会进行小批量随机计算梯度,并用梯度下降的方向进行模型的优化
  3. 批量的大小和学习率的设置要适度,后续会具体学习如何设置合适的批量大小和学习率
http://www.dtcms.com/a/597032.html

相关文章:

  • 【MCP:七千字图文详解】从灵感闪现到生态确立,全链路解读与实战
  • GitHub 热榜项目 - 日榜(2025-11-11)
  • OpenCV图像亮度与对比度调整
  • 应急响应基础
  • jsp技术做网站有什么特点免费软件下载网站入口正能量
  • WSL2下Ubuntu20.04图形化环境配置
  • Ubuntu单用户
  • h5制作网站哪个好杭州做网站的公司
  • 软装设计师常用网站英文网站建设一般多少钱
  • 数据结构之顺序表(动态)
  • Prover9/Mace4 的形式化语言简介
  • CSDN文章如何转出为PDF文件保存
  • 多级缓存解决方案
  • C++ 二分查找(Binary Search):从原理到实战的全面解析
  • Synbo Protocol 受邀出席ETHShanghai 2025,以共识机制重构链上融资生态
  • 软考 系统架构设计师历年真题集萃(198)—— 2025年11月系统架构设计师真题1
  • 专业网站开发服务电商网站建设哪个好
  • 哈希表和unordered_map和unordered_set
  • HTTP报文格式
  • 厦门网页建站申请费用怎么找出网站的备案号
  • maven专题
  • 渭南市住房和城乡建设局官方网站定制网站和模板网站及仿站的区别
  • Data Agent业务场景方案分析
  • AWS ALB 和目标组异常事件监控实战
  • python中模拟浏览器操作之playwright使用说明以及打包浏览器驱动问题
  • pnpm环境下防止误使用npm的方法
  • 服务器证书与网站不符2020中国企业500强榜单
  • 医疗电子试验箱 生物电子实验箱 生物医学教学平台 嵌入式生物医学电子实验箱
  • 网易云音乐解析(无损音乐均可下载)
  • android StateFlow和sharedflow