当前位置: 首页 > news >正文

deep learning(李宏毅)--(六)--loss

一,关于分类问题及其损失函数的一些讨论。

在构建分类模型是,我们的最后一层往往是softmax函数(起到归一化的作用),如果是二分类问题也可以用sigmoid函数。
 

在loss函数的选择上,一般采用交叉熵损失函数(cross-entropy),为什么呢?因为交叉熵损失函数更容易使得optimisization到达低loss(如下图:cross-entropy的梯度图更为陡)

 

二,对于Adam和SGDM梯度优化算法的比较

Adam:训练速度很快,但是收敛效果不佳

SGDM:训练速度平稳,收敛性较好

SWATS算法:Adam和SGDM算法的结合:(训练开始用Adam,在收敛时用SGDM) 

注意:使用Adam算法初始不稳定,需要进行预加热(Warm up) .

三,Radam算法与SWATS算法比较:
 

后面就有点听不懂了,以后了解更多再来听吧,做个记号。
(选修)To Learn More - Optimization for Deep Learning (2_2)_哔哩哔哩_bilibili 
笔记先做到这hh,有的笨,当先了解了。

 

 

http://www.dtcms.com/a/284395.html

相关文章:

  • day19-四剑客与正则-特殊符号正则-awk
  • [yotroy.cool] 记一次 Git 移除某个不该提交的文件
  • iOS WebView 调试与性能优化 跨平台团队高效协作方法解析
  • PyTorch生成式人工智能(18)——循环神经网络详解与实现
  • 可视化图解算法56:岛屿数量
  • Word 中为什么我的图片一拖就乱跑,怎么精确定位?
  • python使用pymysql库
  • modbus 校验
  • 泛型与类型安全深度解析及响应式API实战
  • Java 集合框架详解:Collection 接口全解析,从基础到实战
  • 7月17日日记
  • 【机器学习】向量数据库选型指南:企业内网部署场景
  • 从零开始:C++ UDP通信实战教程
  • 河南萌新联赛2025第(一)场:河南工业大学(补题)
  • SQLite的可视化界面软件的安装
  • YOLO11 vs LMWP-YOLO:参数量-52.5%,mAP+22.07%,小型无人机的远距离检测
  • 7月17日
  • 深度学习 -- Tensor属性及torch梯度计算
  • 大型语言模型的白日梦循环
  • Ollama使用指南-更改默认安装路径和Model路径(安装到非C盘)
  • 【深度学习】神经网络反向传播算法-part4
  • Java数组补充v2
  • Java数组中相关查找排序算法(1)
  • 密码管理安全防御
  • Servlet概述
  • Hive常用命令总结
  • 直播带货与开源AI智能名片链动2+1模式S2B2C商城小程序:重塑电商营销新格局
  • springboot打包二次压缩Excel导致损坏
  • 从零开始实现一个简单的 RPC 框架(Java 版)
  • uniapp运行鸿蒙报错整理