当前位置: 首页 > news >正文

Batch Normalization 批归一化

为什么需要归一化?

在神经网络的训练中,参数不断变化,使得各层的输入分布也在不停调整。这样会使得模型收敛变慢,并对初始化和学习率敏感。

Batch Normalization的作用:

  • 让每一层输入分布更稳定
  • 加速训练,提高数值稳定性
  • 允许更高的学习率
  • 减少对初始化的敏感

BN计算整体流程

BN整体分为两个流程,先标准化,再尺度缩放和偏移

假设某一层的输入x,[batch_size=B,channel=d,H,W]

1. 对于每一维特征d,在minibatch内计算均值和方差:

\mu _{B} = \frac{1}{B}\sum_{i=1}^{B}x_i

{\sigma _B} ^2 = \frac{1}{B}\sum_{i=1}^{B}(x_i-\mu _B)^2

2. 标准化:

\hat{x_i} = \frac{x_i-\mu _B}{\sqrt{​{\sigma _B}^2+\varepsilon} }

其中 ϵ 是一个很小的正数,防止分母为零。

3. 引入两个可学习参数γ(缩放)和β(平移):

y_i = \gamma \hat{x_i} + \beta

γ 和 β 让模型有能力恢复原始分布(如有需要),不会因为归一化限制了表达能力。


训练和验证阶段区别

训练

  • 对每个 minibatch 计算均值 ​ \mu _B和方差 \sigma^2 _B
  • 归一化用的是当前 batch 的均值和方差。
  • 同时用这些 batch 统计量更新全局的滑动平均(moving average):

\mu _{ema}\leftarrow \rho \mu _{ema} + (1-\rho )\mu _B

\sigma ^2_{ema}\leftarrow \rho \sigma ^2_{ema} + (1-\rho )\sigma ^2_B

其中 ρ 是动量系数(如 0.9、0.99 等)。

验证

不再用 batch 的均值/方差(因为 batch size 可能很小,统计不稳定)。

用训练时累积得到的全局滑动平均\mu _{ema}和 \sigma ^2_{ema},进行归一化:

\hat{x} = \frac{x-\mu _{ema}}{\sqrt{\sigma ^2_{ema}+\varepsilon }}


一般在神经网络中,都是先经过卷积--->BN----->ReLU

BN将卷积后的输出分布归一化后,使用ReLU激活,及那个分布中的负值清,达到更好的效果。

如果卷积层之后添加了BN层,卷积层中的bias设置为False,因为bias不起任何作用。

因为会抵消:

http://www.dtcms.com/a/360320.html

相关文章:

  • 实现自己的AI视频监控系统-第三章-信息的推送与共享1
  • AI辅助编程日记和chat历史开源Series 1:VSCode + GitHub Copilot 自动下载及安装软件
  • 大模型训练全流程
  • 在deepseek v3.1上加自信度参数的外挂方案,plugin,朝向一步一步
  • [光学原理与应用-361]:ZEMAX - 分析 - 像差分析
  • Win32学习笔记 | recv函数
  • MVC架构模式
  • XXL-JOB任务执行The access token is wrong问题分析解决及原理源码解析
  • 【Linux】linux进程 vs 线程
  • 《WINDOWS 环境下32位汇编语言程序设计》第9章 通用控件(2)
  • Modbus CRC16校验码在线计算器
  • Python训练营打卡Day49-神经网络调参指南
  • 大模型参数量与计算量(FLOPs)估算方法
  • [WUSTCTF2020]B@se1
  • 后向投影合成孔径辐射源定位方法(一)
  • Linux-数据库
  • MVC模式学习
  • 物种多样性与物种丰富度
  • 制造业生产线连贯性动作识别系统开发
  • 使用 Claude Code 与 Remotion 制作自定义动画视频的完整教程
  • 代码分析之符号执行技术
  • 多人协作开发指南二
  • 简化对齐训练:用明文对比数据SFT替代复杂DPO
  • 8针脚的1.8寸IIC接口的TFT彩屏的八个引脚都需要使用吗?
  • 【编号186】中国劳动统计年鉴(1991-2023)
  • LeetCode 2570.合并两个二维数组
  • 超越关键词:RAG系统如何破解用户查询的“模糊密码”
  • BLE广播与扫描
  • 嵌入式C学习笔记之预编译
  • Redis面试重点-2