当前位置: 首页 > news >正文

再次深入学习深度学习|花书笔记1

我已经两年没有碰过深度学习了,写此文记录学习过程,加深理解。

深度学习

  • 再次深入学习深度学习|花书笔记1
    • 信息论
    • 第四节 数值计算中的问题
      • 上溢出 和 下溢出
      • 病态条件
      • 优化法

再次深入学习深度学习|花书笔记1

这本书说的太繁琐了,如果是想要基于这本书入门深度学习,大可不必。但是可以用来回炉再造,加深理解。

信息论

研究一个信号中信息包含多少的量化,在实际工作中,可以用到信息熵这种东西,约束生成的东西是精简的,合理的。

  • 一个基本想法:发生的概率P(x)越低,说明信息量越大。发生概率是1,那么包含的信息量就是0了。
  • 信息量的单位是奈特(nats).就是一个传递了1/e的发生概率的事件的信息。
  • 当对数的底数是2,信息的单位就是bit比特。
I(x)=-log(P(x))  
1 nats= -log(1/e)
1 bit= -log(1/2)
  • 交叉熵,p,q是真实分布和非真实分布
    在这里插入图片描述
  • 归一化 保证所有元素的和为1.用在预处理阶段,不知道这种说法对不对,就是输入数据符合标准正态分布,也就是收到0-1之间再做正态分布。这可以应用在图像,声音,文本,具体的似乎是在数据集内进行操作。

第四节 数值计算中的问题

上溢出 和 下溢出

主要来自于计算机数字表示中的位数限制,接近0时候导致数值被舍为0;过大时导致近似为∞。
使用softmax激活函数。

    def softmax(x):e_x = np.exp(x - np.max(x))return e_x / np.sum(e_x)

在这里插入图片描述
在这里插入图片描述

病态条件

当我们说一个数学名词是病态时,这个词意味着改动很小时扰动很大。包括病态方程组。
这可能对数据的精度有一定要求。
即使我们计算正确, 病态条件的矩阵也会放大预先存在的误差。
三点

  • 梯度消失
  • 梯度爆炸
  • 梯度过缓

优化法

目的:最大化或最小化Loss函数/损失函数/代价函数/误差函数
方法:梯度下降法

f(x+t)近似f(x)+t*f'(x)
当t足够小?似乎是有这个条件的

最终到达如图所示的某个极值点,当然很可能是局部最优解。
在这里插入图片描述

基本的两个点是

  • 如果有多个参数就求偏导
  • 每次优化的步长随着训练时间的延长而缩小
    这是在连续函数中的梯度优化算法,在离散函数中有叫爬山算法的东西,没有了解过。

由于梯度下降法的步长t并非数学定义下的无穷小量,梯度下降方向实际上并非一个严格的最优方向。
可以采用二阶导数 Hessian 矩阵/牛顿法优化梯度下降算法。


文章转载自:

http://ZoozzAT4.hkfhp.cn
http://5o3OWAvd.hkfhp.cn
http://tLUTT5sp.hkfhp.cn
http://zhKWPU5Y.hkfhp.cn
http://yJLloBqA.hkfhp.cn
http://ODiZCeAY.hkfhp.cn
http://aQ3miRsy.hkfhp.cn
http://e3ehVjfU.hkfhp.cn
http://Ici5JEC6.hkfhp.cn
http://tkogfik1.hkfhp.cn
http://ke3eZRqa.hkfhp.cn
http://VD9A4Caj.hkfhp.cn
http://iQSjF62c.hkfhp.cn
http://TTZ1ALYh.hkfhp.cn
http://h0CtTrEY.hkfhp.cn
http://0BQQ2IUW.hkfhp.cn
http://YHaf6Hym.hkfhp.cn
http://Gu2G1iqY.hkfhp.cn
http://LVSPCs6s.hkfhp.cn
http://l5ojQP4z.hkfhp.cn
http://5nTsZ5hX.hkfhp.cn
http://Yp7Qpfv5.hkfhp.cn
http://NH6zhjvp.hkfhp.cn
http://HT1lTKPZ.hkfhp.cn
http://s89Z1FHz.hkfhp.cn
http://KK3ZzzmD.hkfhp.cn
http://moYXs2vB.hkfhp.cn
http://wiw6oOR2.hkfhp.cn
http://sCvFQNAR.hkfhp.cn
http://0tXsCmMY.hkfhp.cn
http://www.dtcms.com/a/382089.html

相关文章:

  • 信息检索、推荐系统模型排序质量指标:AP@K和MAP@K
  • 详解 OpenCV 形态学操作:从基础到实战(腐蚀、膨胀、开运算、闭运算、梯度、顶帽与黑帽)
  • 《2025年AI产业发展十大趋势报告》五十五
  • 【面试题】RAG优化策略
  • 06 一些常用的概念及符号
  • Oracle事件10200与10201解析:数据库读一致性CR与Undo应用
  • 新手向:C语言、Java、Python 的选择与未来指南
  • 【人工智能通识专栏】第十四讲:语音交互
  • 3.RocketMQ核心源码解读
  • 微信小程序开发教程(十一)
  • [硬件电路-194]:NPN三极管、MOS-N, IGBT比较
  • 零基础学AI大模型之AI大模型常见概念
  • [Dify] 插件节点用法详解:如何将插件整合进工作流
  • 2025年数字公共治理专业重点学什么内容?(详细指南)
  • 如何在 Windows 系统中对硬盘 (SSD) 进行分区
  • 【深耕好论文】
  • Python快速入门专业版(二十八):函数参数进阶:默认参数与可变参数(*args/**kwargs)
  • 残差:从统计学到深度学习的核心概念
  • 华为体检转氨酶高能否入职
  • DeerFlow 实践:华为IPD流程的评审智能体设计
  • AI赋能金融研报自动化生成:智能体系统架构与实现
  • 一、Java 基础入门:从 0 到 1 认识 Java(详细笔记)
  • python123机器学习基础练习1
  • 微信小程序坐标位置使用整理(四)map组件
  • 贪心算法在联邦学习客户端选择问题中的应用
  • 自增主键为何需要返回?
  • JDBC从入门到面试:全面掌握Java数据库连接技术
  • java本机电脑跳过2层网络连到客户内网远程调试方案
  • 基于多元线性回归、随机森林与神经网络的农作物元素含量预测及SHAP贡献量分析
  • MySQL数据库 -- 6.事务