当前位置: 首页 > news >正文

关键词解释:LN(Layer Normalization,层归一化)和 BN(Batch Normalization,批归一化)

LN(Layer Normalization,层归一化)和 BN(Batch Normalization,批归一化)是深度学习中两种非常重要的归一化技术,用于加速训练、提升稳定性、缓解梯度消失/爆炸等问题。它们的核心思想都是对神经网络中间层的输出进行标准化,但归一化的维度和适用场景截然不同

下面从原理、公式、对比、优缺点和使用建议五个方面详细讲解。


一、Batch Normalization(BN,批归一化)

📌 提出时间

2015 年,由 Sergey Ioffe 和 Christian Szegedy 在论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》中提出。

🔧 核心思想

一个 batch 中所有样本在同一个特征维度上进行归一化,使得每层输入分布更稳定。

📐 公式(训练阶段)

对于某一层的输出张量 $ \mathbf{x} \in \mathbb{R}^{B \times C \times H \times W} $(以 CNN 为例):

  • 对每个通道 $ c $,在 batch 维度 + 空间维度 上计算均值和方差:

$ \mu_c = \frac{1}{B \cdot H \cdot W} \sum_{b=1}^B \sum_{h=1}^H \sum_{w=1}^W x_{b,c,h,w} $

$ \sigma_c^2 = \frac{1}{B \cdot H \cdot W} \sum_{b=1}^B \sum_{h=1}^H \sum_{w=1}^W (x_{b,c,h,w} - \mu_c)^2 $

  • 归一化:$ \hat{x}{b,c,h,w} = \frac{x{b,c,h,w} - \mu_c}{\sqrt{\sigma_c^2 + \epsilon}} $

  • 缩放和平移(可学习参数): $ y_{b,c,h,w} = \gamma_c \cdot \hat{x}_{b,c,h,w} + \beta_c $

其中:

  • $ \gamma, \beta \in \mathbb{R}^C $ 是可学习的仿射变换参数;
  • $ \epsilon $是数值稳定小常数(如 $ 10^{-5} $)。

💡 关键:归一化沿 batch 维度进行 → 要求 batch size 不能太小(通常 ≥ 8)。

✅ 优点

  • 显著加速收敛;
  • 允许使用更高的学习率;
  • 有一定正则化效果(因依赖 batch 内统计量)。

❌ 缺点

  • 依赖 batch size:小 batch(如 1、2)时统计量不准,性能下降;
  • 不适用于序列模型(如 RNN、Transformer)中变长输入;
  • 推理时需用滑动平均的全局均值/方差,训练/推理不一致。

🎯 适用场景

  • CNN 图像任务(如 ResNet、VGG);
  • 固定 batch size 且较大(≥ 16)的场景。

二、Layer Normalization(LN,层归一化)

📌 提出时间

2016 年,由 Jimmy Lei Ba 等人在《Layer Normalization》中提出,专为 RNN 和小 batch 场景设计

🔧 核心思想

单个样本的所有特征维度进行归一化,与 batch 无关。

📐 公式

对于一个样本的输出向量 $ \mathbf{x} \in \mathbb{R}^D $(或张量),计算其自身所有元素的均值和方差

$ \mu = \frac{1}{D} \sum_{i=1}^D x_i, \quad \sigma^2 = \frac{1}{D} \sum_{i=1}^D (x_i - \mu)^2 $

$ \hat{x}_i = \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}}, \quad y_i = \gamma_i \hat{x}_i + \beta_i $

💡 关键:归一化沿特征维度进行,每个样本独立计算 → 完全不依赖 batch。

✅ 优点

  • 不受 batch size 影响:batch=1 也能用;
  • 适用于变长序列(如 NLP 中的句子);
  • 训练/推理行为一致。

❌ 缺点

  • 在 CNN 中效果通常不如 BN(因破坏了通道间的语义一致性);
  • 对特征维度的“语义同质性”有要求(假设各维度可比)。

🎯 适用场景

  • Transformer(如 BERT、GPT、ViT);
  • RNN / LSTM
  • 强化学习、小 batch 训练、在线学习

三、BN vs LN 核心对比

特性Batch Norm (BN)Layer Norm (LN)
归一化维度沿 batch 维度(跨样本)沿特征维度(单样本内)
依赖 batch size是(小 batch 效果差)否(batch=1 也可用)
训练/推理一致性否(需滑动平均)是(完全一致)
适合 CNN✅ 非常适合❌ 通常效果较差
适合 Transformer/RNN❌ 不适合(变长序列)✅ 标准选择
可学习参数per-channel ($ \gamma_c, \beta_c $)per-feature ($ \gamma_i, \beta_i $)
正则化效果有(因 batch 随机性)

四、其他归一化方法(补充)

方法全称特点适用场景
INInstance Norm对单样本单通道归一化($ B \times C \times H \times W \to \text{norm over } H,W $风格迁移(如 AdaIN)
GNGroup Norm将通道分组后归一化(介于 BN 和 LN 之间)小 batch CNN(如 Detectron2 默认)
SyncBNSynchronized BN多卡训练时同步 batch 统计量分布式训练大模型

📌 Group Norm 公式:将 $ C $个通道分为$ G $组,每组在 $ (H,W) $ 上归一化。当 $ G=1 $ 时退化为 LN,$ G=C $ 时退化为 IN。


五、PyTorch 代码示例

import torch
import torch.nn as nn# 假设输入: [batch_size, channels, height, width]
x = torch.randn(4, 64, 32, 32)# BatchNorm2d: 归一化沿 (N, H, W) 维度,每通道独立
bn = nn.BatchNorm2d(64)
out_bn = bn(x)# LayerNorm: 归一化沿最后几个维度(需指定 normalized_shape)
ln = nn.LayerNorm([64, 32, 32])  # 对每个样本的 [64,32,32] 归一化
out_ln = ln(x)# 或对特征维度归一化(如 Transformer 中)
x_seq = torch.randn(4, 100, 512)  # [batch, seq_len, d_model]
ln_seq = nn.LayerNorm(512)        # normalized_shape = 512
out_seq = ln_seq(x_seq)

六、如何选择?

场景推荐归一化
图像分类(ResNet等)BN(batch size ≥ 16)
目标检测 / 小 batch CNNGN 或 SyncBN
Transformer(BERT/GPT/ViT)LN
RNN / LSTMLN
风格迁移IN 或 AdaIN
强化学习 / batch=1LN

总结

  • BN跨样本归一化,适合大 batch 的 CNN;
  • LN单样本内归一化,适合序列模型和小 batch 场景;
  • 二者不是谁替代谁,而是针对不同架构的设计选择

🌟 记住一句话:
“CNN 用 BN,Transformer 用 LN” —— 这是现代深度学习的默认实践。

http://www.dtcms.com/a/575473.html

相关文章:

  • 网站排名有什么用wordpress标题添加连载中
  • 营销策划培训seo线下培训机构
  • 基于Optuna 贝叶斯优化超参数调优之使用TPE创建研究对象
  • 知识就是力量——温湿度传感器选型2.0
  • 做音乐网站要注意什么电脑经销部开具网站建设费
  • 福州网站建设方案服务青岛建设集团有限公司
  • <RT1176系列15>clock_config代码分析
  • 台州关键词首页优化东莞网站seo优化
  • 密云上海网站建设综合搜索引擎
  • 中国建设银行企业网站个人网站如何进行网络推广
  • 建设网站怎么克隆建设网站与服务器
  • 网站空间要备案吗东莞市网站建设分站品牌
  • 云南网站建设网站运营中英文切换的网站怎么做的
  • 网站都是怎么做的辽宁建设工程信息网上传标书时显示初始化签名证书选择模式失败
  • 长沙企业建站按效果付费wordpress随机文章
  • 可以写代码的网站有哪些问题怎么可以创建网站
  • 门户网站建设哪家便宜建设工程报建备案网站
  • [RE2] docs | FullMatch PartialMatch | 自动匹配
  • wordpress评测网站做黄金的分析师网站
  • 信阳市网站建设公司东莞企业推广网站
  • 怎样自己建个人网站wordpress文章自适应图片大小
  • 旅游网站首页图片重装电脑后没有wordpress
  • 公司专业做网站唐山网站建设zzvg
  • 建设服装网站的意义微信公众平台小程序管理
  • 北京市建设厅官方网站萧山建设银行招聘网站
  • PK10如何自己做网站做一个app开发多少钱
  • 网站流量下降管理咨询公司好不好做
  • 网络培训网站开发文献综述网页升级紧急通知域名
  • 全屏网站沈阳网势科技有限公司怎么样
  • 光触媒网站建设wordpress4.7.0下载