当前位置: 首页 > news >正文

【DeepSeek-R1背后的技术】系列十三:归一化方式介绍(BatchNorm, LayerNorm, Instance Norm 和 GroupNorm)

【DeepSeek-R1背后的技术】系列博文:
第1篇:混合专家模型(MoE)
第2篇:大模型知识蒸馏(Knowledge Distillation)
第3篇:强化学习(Reinforcement Learning, RL)
第4篇:本地部署DeepSeek,断网也能畅聊!
第5篇:DeepSeek-R1微调指南
第6篇:思维链(CoT)
第7篇:冷启动
第8篇:位置编码介绍(绝对位置编码、RoPE、ALiBi、YaRN)
第9篇:MLA(Multi-Head Latent Attention,多头潜在注意力)
第10篇:PEFT(参数高效微调——Adapter、Prefix Tuning、LoRA)
第11篇:RAG原理介绍和本地部署(DeepSeek+RAGFlow构建个人知识库)
第12篇:分词算法Tokenizer(WordPiece,Byte-Pair Encoding (BPE),Byte-level BPE(BBPE))
第13篇:归一化方式介绍(BatchNorm, LayerNorm, Instance Norm 和 GroupNorm)

目录

  • 1 Batch Normalization (BatchNorm)
  • 2 Layer Normalization (LayerNorm)
  • 3 Instance Normalization (InstanceNorm)
  • 4 Group Normalization (GroupNorm)
  • 5 总结

我们用一张图就能快速理解四种归一化方式的不同之处了。

归一化

1 Batch Normalization (BatchNorm)

方法:对每个特征通道,在 整个mini-batch 的样本和空间维度(如图像的高、宽)上计算均值和方差,进行归一化。

公式

在这里插入图片描述

优点

  • 加速训练收敛,减少内部协变量偏移。
  • 提供轻微的正则化效果(依赖噪声化的统计量)。
  • 在CNN中广泛应用,尤其在图像分类任务(如ResNet)。

缺点

  • 依赖较大的batch size(小batch时统计量估计不准确)。
  • 训练与测试逻辑不同(测试时使用移动平均的均值和方差)。
  • 不适用于RNN或动态网络(序列长度变化导致统计量不稳定)。

2 Layer Normalization (LayerNorm)

方法:对 单个样本的所有特征(通道、空间维度)计算均值和方差,独立归一化。

公式

在这里插入图片描述

优点

  • 不依赖batch size,适合小批量或单样本训练。
  • 在RNN、Transformer中表现稳定(逐样本归一化)。

缺点

  • 在CNN中效果通常不如BatchNorm(忽略局部空间相关性)。
  • 对输入特征的尺度敏感,需谨慎初始化。

适用场景:序列模型(如LSTM、Transformer)、强化学习。

3 Instance Normalization (InstanceNorm)

方法:对 每个样本的每个通道 单独计算均值和方差,独立归一化。

公式

在这里插入图片描述

优点

  • 保留样本间独立性,适合风格迁移、GAN等生成任务。
  • 消除内容图像的对比度信息,突出风格特征。

缺点

  • 丢失通道间的关联信息,可能影响识别任务性能。

适用场景:图像生成(如StyleGAN)、风格迁移。

4 Group Normalization (GroupNorm)

方法:将通道分为 (G) 组,对 每组通道 在单个样本的空间维度上计算均值和方差。

公式

在这里插入图片描述

优点

  • 不依赖batch size,适合小批量训练(如目标检测、分割)。
  • 平衡通道间信息利用与归一化稳定性(通过调节组数 (G))。

缺点

  • 组数 (G) 需调参(通常设为32或16)。
  • 在极大batch size下可能弱于BatchNorm。

适用场景:小batch任务(如检测模型Mask R-CNN)、视频处理。

5 总结

方法归一化维度优点缺点典型应用场景
BatchNorm(N, H, W)加速训练,正则化依赖大batch,RNN不适用CNN图像分类(ResNet)
LayerNorm(C, H, W)不依赖batch,适合序列模型CNN效果一般Transformer, RNN
InstanceNorm(H, W) 单样本单通道保留实例独立性丢失通道间信息风格迁移,GAN
GroupNorm(C/G, H, W) 分组通道小batch友好,灵活需调参组数G目标检测(Mask R-CNN)

选择建议 :

  • CNN图像分类:优先BatchNorm(batch size足够大时)。
  • 小batch任务/检测分割:GroupNorm。
  • RNN/Transformer:LayerNorm。
  • 图像生成/风格迁移:InstanceNorm。

相关文章:

  • 【R语言】Kmeans算法
  • Servlet理论知识详解
  • 由堆栈异常引发的一系列问题启发
  • 计算机视觉 |解锁视频理解三剑客——TimeSformer
  • Spring 中的依赖注入
  • 【Deepseek学习大模型】Roofline计算规则
  • 虚拟机缩放比例问题处理
  • RK3588 mpp视频帧解码
  • PG 中级认证专家考证事项
  • 【大模型】大模型推理能力深度剖析:从通用模型到专业优化
  • 【数据结构】二叉树(门槛极低的系统理解)
  • 一次性内窥镜鲁棒性详解:技术与应用
  • 结构体介绍及内存大小分配问题
  • SonarQube 在持续集成中的作用与应用
  • PDF图形识别:一键框选,快速计数,开启数字化图形处理新时代
  • linux在vim中查找和替换
  • string类在OJ的使用
  • linux中安装部署Jenkins,成功构建springboot项目详细教程
  • 03_旁挂负载分担组网场景
  • AI壁纸创作技巧01:蓝色敖闰
  • 2025中国互联网大会镇江分站:探讨AI推动产业发展的机遇
  • 云南旅游市场10条措施征求意见:对强制诱导购物等吊销导游证的不得再次核发
  • 英欧再“牵手”,友好“靠美国”
  • 华住集团:第一季度盈利8.94亿元,同比增长超三成
  • 存款利率、LPR同日下调,机构称对银行的影响偏正面
  • 上海乐高乐园客流预测来了:工作日0.8万人次/日,周末节假日2万人次/日