当前位置: 首页 > news >正文

Day27_【深度学习(6)—神经网络NN(4)正则化】

一、背景

        在训练深层神经网络时,由于模型参数较多,在数据量不足的情况下,很容易过拟合。

正则化方法:通过一系列技术手段来防止模型过拟合,提升模型的泛化能力

二、正则化方法

1. 随机失活DropOut

1. 训练:

  • 在训练阶段,对某一层(通常为主干网络的隐藏层)每个神经元输出以超参数 p(丢弃概率)随机置 0
  • 未被置 0 的激活值乘以缩放因子 1(1−p)(1−p)1​,保证该层输出的期望总值不变
  • p 通常为 0.1

2. 测试:

  • 随机失活关闭,不再采样掩码,直接使用完整网络(权重已隐含平均效应)
  • 因而推理输出是确定性的,无需额外随机数

作用:

  1. 破坏神经元间的共适应性(co-adaptation),迫使每个单元都能独立贡献
  2. 等效集成大量深度不同的子模型,降低方差,缓解过拟合

2. 批量归一化BN

(1)理论

问题:
  1. 在神经网络的训练过程中,流经网络的数据都是一个batch,每个batch之间的数据分布变化非常剧烈。
  2. 这就使得网络参数不得不频繁的进行大的调整以适应流经网络的不同分布的数据。
  3. 给模型训练带来非常大的不稳定性,使得模型难以收敛。
解决措施:
  1. 对每一个batch的数据进行标准化之后,数据分布就变得稳定,参数的梯度变化也变得稳定,有助于加快模型的收敛。
  2. 标准化每一层的输入,使其均值接近0,方差接近1,从而加速训练并提高泛化能力,缓解网络过拟合。
  3. 简单来说就是,先对数据进行标准化,再进行缩放和平移。

(2)流程

                ​​​​​​​              

1. 深度学习中标准化和归一化都指的是一个意思——标准化

2. 输入的每批次特征通过标准化后,使其均值接近0,方差接近1,使数据分布变得稳定,

从而加速训练并提高泛化能力,缓解网络过拟合

http://www.dtcms.com/a/392634.html

相关文章:

  • NeurIPS 2025 spotlight 自动驾驶最新VLA+世界模型 FSDrive
  • Nodejs+html+mysql实现轻量web应用
  • AI模型测评平台工程化实战十二讲(第二讲:目标与指标:把“测评”这件事说清楚(需求到蓝图))
  • 20.二进制和序列化
  • 接口自动化测试实战
  • 为企业系统无缝集成AI检测能力:陌讯AIGC检测系统API接口调用全指南
  • RESTful API
  • Linux知识回顾总结----进程间通信(上)
  • Qwen3-Next深度解析:阿里开源“最强性价比“AI模型,如何用3%参数超越全参数模型?
  • AutoResetEvent:C# 线程同步工具
  • ThinkSound - 阿里通义开源的AI音频生成模型
  • Wan2.2-S2V-14B:音频驱动的电影级视频生成模型全方位详解
  • 基于C++11手撸前端Promise——从异步编程到现代C++实践
  • 构建AI智能体:三十九、中文新闻智能分类:K-Means聚类与Qwen主题生成的融合应用
  • [vibe code追踪] 程序列表视图 | renderNodeList
  • 解决 `sudo rosdepc init` 报错:`command not found` 的完整指南
  • 大数据毕业设计选题推荐-基于大数据的气候驱动的疾病传播可视化分析系统-Hadoop-Spark-数据可视化-BigData
  • Maven 实战:多模块项目与高级打包配置
  • AI 精准绘图专栏:从描述到图像,让创意精准落地​
  • 基于C++11手撸前端Promise进阶——链式调用与组合操作(All/Race)的实现
  • 美国批准通用上市标准!加密货币ETF即将爆发?
  • 子查询及其分类
  • MySQL的存储引擎(一条sql语句的执行流程是什么样的?)
  • JavaScript学习笔记(二):遍历方法汇总
  • Ubuntu22.04显卡掉驱动,重装命令
  • 模式组合应用-享元模式
  • 租房小程序房产小程序源码方案详解
  • p-value与e-value
  • 面经分享--京东一面
  • 大数据毕业设计选题推荐-基于大数据的帕金森病数据可视化分析系统-Spark-Hadoop-Bigdata