当前位置: 首页 > news >正文

深度学习-丢弃法 Dropout

Dropout 相当于是一个正则项,只在训练时使用,即在层之间加入噪声,增加模型的鲁棒性

因此,推理过程中,Dropout直接返回输入本身。

【补充知识点】:

正则化(regularization)的核心定义只有一句话:

  • 任何显式地牺牲训练误差、换取模型复杂度下降的操作或约束,都叫正则化

把这句话拆成三个关键词:

  1. 显式——它必须是人为“加进去”的,而不是模型本来就有的;

  2. 牺牲训练误差——如果不付出代价,就不叫正则化;

  3. 换取复杂度下降——最终目的是降低泛化误差(测试误差)。

常用的正则化方法

牺牲代价(训练误差↑)

换取的复杂度下降

L2 权重衰减(Weight Decay)

额外惩罚项 λ‖w‖² 拉高损失

权重变小 → 函数更平滑,VC 维↓

L1 权重衰减(Lasso)

额外惩罚项 λ‖w‖₁ 拉高损失

权重稀疏 → 特征选择,有效参数量↓

Dropout

训练时随机屏蔽神经元/权重,网络更难拟合

抑制共适应 → 网络更鲁棒,等效集成大量子网络

Early Stopping

提前终止训练,训练误差未降至最低

迭代次数↓ → 有效容量↓

训练时把 p概率 的神经元置 0,相当于把剩余神经元的“总输出强度”缩小了 (1−p) 倍;

除以 (1−p) 是把强度再拉回原来的期望值,这样推理阶段无需任何缩放就能得到一致的输出。

例如,自主实现的dropout函数中,结果如下:

在 Dropout 技术中,训练时以概率 p 随机保留神经元(丢弃概率为 1−p)。

除以保留概率 p 的核心原理是:

  • 保持该层输出的期望值(均值)在训练和测试时一致。

  • 若不进行缩放,训练时输出的期望值仅为原始值的 p 倍,而测试时为原始值,会导致网络行为不一致。

  • 缩放操作确保了训练和测试时输出的期望值相同,提升模型泛化能力。

假设某层有 4 个神经元,输出值为 [2,4,6,8],保留概率 p=0.5(即丢弃概率 1−p=0.5)。

  1. 生成掩码: 以 50% 概率保留每个神经元。例如掩码为 [1,0,1,0](意思是:保留第 1、3 个,丢弃第 2、4 个)。

  2. 应用 Dropout(未缩放): 输出变为 [2×1,4×0,6×1,8×0]=[2,0,6,0]。 期望值 = (2+0+6+0)/4=2而原始期望值为 (2+4+6+8)/4=5。

  3. 缩放(除以 p=0.5):缩放后输出 = [2/0.5,0,6/0.5,0]=[4,0,12,0]。 期望值 = (4+0+12+0)/4=4(与原始期望值 5 仍有偏差,因单次采样有随机性)。

  4. 多次采样验证期望值: 重复多次实验,缩放后的平均输出趋近原始值:

    1. 实验1:掩码 [1,0,1,0] → [4,0,12,0] → 均值 = 4

    2. 实验2:掩码 [0,1,0,1] → [0,8,0,16] → 均值 = 6

    3. 实验3:掩码 [1,1,0,0] → [4,8,0,0] → 均值 = 3

    4. 平均期望 = (4+6+3)/3≈4.33 → 接近原始均值 5(采样越多越接近)。

http://www.dtcms.com/a/306970.html

相关文章:

  • C语言基础11——结构体1
  • Qt Quick 动画与过渡效果
  • QT中QTableView+Model+Delegate实现一个demo
  • TikTok 视频审核模型:用逻辑回归找出特殊类型的视频
  • 全栈:SSH和SSM和Springboot mybatisplus有什么区别?
  • 以ros的docker镜像为例,探讨docker镜像的使用
  • 力扣刷题日常(7-8)
  • 【Arch-Linux,hyprland】常用配置-已实验成功指令大全(自用)(持续更新)
  • 如何保证数据库的持久性与一致性:从 Linux 磁盘缓存策略到 MySQL 的设计
  • 执业药师证识别技术:医药健康生态中发挥愈发关键的作用
  • 微软:科技领域的创新巨头
  • Sleeping Cup 论坛:连接开发者与创新的桥梁
  • 隧道COVI检测器的用处
  • [SKE]使用OpenSSL库实现AES、SM4、DES、RSA、3DES_EDE和3DES_EEE算法的加解密验证
  • SringBoot入门
  • Linux启动防火墙提示提示 Active: failed (Result: timeout)
  • Golang 指针与引用深度解析:对比 C/C++ 的内存管理哲学
  • Jupyter Notebook安装使用
  • Javascript对象合并
  • Centos7 | 防火墙(firewalld)使用ipset管理ip地址的集合
  • MySQL 读写分离(含示例代码)
  • 新注册企业信息查询“数据大集网”:驱动企业增长的源头活水
  • 10 卷积神经网络
  • LLMs之Agent:GLM-4.5的简介、安装和使用方法、案例应用之详细攻略
  • 51单片机入门:数码管原理介绍及C代码实现
  • 【硬件】元器件选型
  • 【ESP32设备通信】-LAN8720与ESP32集成
  • 订阅区块,部署合约,加载合约
  • Akamai CloudTest before 60 2025.06.02 XXE注入导致文件包含漏洞(CVE-2025-49493)
  • MOEA/DD(多目标进化算法基于分解)简介