当前位置: 首页 > news >正文

深度学习11(调参设参+批标准化)

调参技巧

        对于调参,通常采用跟机器学习中介绍的网格搜索一致,让所有参数的可能组合在一起,得到N组结果。然后去测试每一组的效果去选择。
假设我们现在有两个参数     

α:0.1, 0.01, 0.001

β:0.8, 0.88. 0.9

        这样会有9种组合,而合理的参数设置为:
学习率a:0.0001、0.001、0.01、0.1,跨度稍微大一些。
算法参数8,0.999、0.9995、0.998等,尽可能的选择接近于1的值。
注:而指数移动平均值参数:B从0.9增加到0.9005对结果几乎没有影响,而B从0.999 到 0.9995 对结果的影响会较大,因为是指数级增加。

        通常我们有这么多参数组合,每一个组合运行训练都需要很长时间,但是如果资源允许的话,可以同时并行训练多个参数模型,并观察效果。如果资源不允许的话,还是得一个模型一个模型的运行,并时刻观察损失的变化。所以对于这么多的超参数,调优是一件复杂的事情,怎么让这么多的超参数范围,工作效果还能达到更好训练变得更容易呢?

        就是接下来的批标准化


批标准化(Batch Normalization

        批标准化提出的背景:

        调参过程麻烦,训练过程太长。
训练深度神经网络很复杂,因为在训练期间每层输入的分布发生变化,因为前一层的参数发生了变化。这通过要求较低的学习率和仔细的参数初始化来减慢训练速度,并且使得训练具有饱和非线性的模型变得非常困难。

        批标准化过程:

        一般被插入在激活函数之前,插入之后为:线性变换 → BN 层 → 激活函数。

        批标准化公式:

        \mu =\tfrac{1}{m}\sum_{i=1}^{n} z_i

        \sigma^2=\frac{1}{m} \sum_{i=1}^{n}(z_i - \mu ^2)

        Z_{norm} =\frac{z-\mu }{\sqrt{\sigma^2+\epsilon } }

        \tilde{Z} =\gamma Z_{norm} \beta

        其中ε是为了防止分母为0,取值10-8。这样使得所有的1层输入z为0,方差为1。但是一般不想让隐藏层单元总是含有平均值0和方差 1,认为也许隐藏层单元有了不同的分布会更有意义。

        其中,γ和β都是模型的学习参数(如同W和b一样),所以可以用各种梯度下降算法来更新y和B的值,如同更新神经网络的权重一样。如果各隐藏层的输入均值在靠近0的区域,即处于激活函数的线性区域,不利于训练非线性神经网络,从而得到效果较差的模型。因此,需要用y和 B对标准化后的结果做进一步处理,

为什么批标准化能使训练更简单:

        深层神经网络在训练时,每一层的输入分布会随着前一层参数更新而不断变化(即“内部协变量偏移”)。这迫使后续层需要不断适应新的数据分布,导致训练变慢。

        Batch Normalization的作用就是减小内部协变量偏移(Internal Covariate Shift) 所带来的影响让模型变得更加健壮,鲁棒性(Robustness)更强。即使输入的值改变了,由于 Batch Normalization 的作用,使得均值和方差保持固定(由每一层~和B决定),限制了在前层的参数更新对数值分布的影响程度,因此后层的学习变得更容易一些。Batch Normalization 减少了各层W和b之间的耦合性,让各层更加独立,实现自我训练学习的效果。

http://www.dtcms.com/a/271235.html

相关文章:

  • tomcat设置预防host头攻击
  • 使用octomap将pcd点云地图转化为八叉树地图和占据栅格地图
  • MCP快速入门—快速构建自己的服务器
  • 龙虎榜——20250709
  • OpenAI 推出其 AI 代理框架的四项关键更新
  • Python数据分析案例|从模拟数据到可视化:零售门店客流量差异分析全流程
  • 拼多多正在错失即时零售?
  • C++智能指针与Qt内存管理详解
  • RESTful接口设计规范详解
  • SAP采购管理系统替代选谁?8Manage SRM全面优势测评与深度对比
  • 码云创建分支
  • 网络请求与现实生活:用办理业务类比理解HTTP通信
  • ubuntu环境下调试 RT-Thread
  • 降AI工具有哪些推荐?降AI率网站的选择与使用指南
  • 人工智能-基础篇-27-模型上下文协议--MCP到底怎么理解?对比HTTP的区别?
  • SDR(软件定义无线电)与软件定义声学系统详解
  • ECR仓库CloudFormation模板完整指南
  • 第1章 Excel界面环境与基础操作指南
  • 精准医疗,AR 锚定球囊扩张导管为健康护航​
  • 微信小程序控制空调之微信小程序篇
  • 机器学习(西瓜书) 第四章 决策树
  • 【论文阅读】AdaReasoner: Adaptive Reasoning Enables More Flexible Thinking
  • 量化数据接口,level2历史数据,level2实时数据,逐笔成交,逐笔委托,10档行情接口
  • 姿态估计:捕捉人体动作的科技艺术
  • 科技对生态保育的影响?
  • Git系列--3.分支管理
  • 自学软件测试需要学哪些内容?
  • 图像硬解码和软解码
  • 轻量锁偏向锁重量锁害人不浅!synchronized源码!
  • eggNOG数据库注释文件