当前位置：首页 > news >正文

在train和eval模式下性能差距的问题（本文聚焦于BatchNorm2d）

news 2025/11/11 6:23:22

1.BatchNorm2d归一化图像时所使用的均值（running_mean，batch_mean）和方差（running_var，batch_var）

BatchNorm2d在 eval 模式下归一化图像使用的就是训练过程中训练样本累计的running_mean和running_var。

然而，在train模式下：（1）BatchNorm2d归一化图像使用的均值和方差为当前批次数据的batch_mean和batch_var；（2）即便不使用反向传播，只要数据经过了模型，模型中BatchNorm2d的均值和方差就会按照(1-momentum) * running_mean + momentum*batch_var（默认momentum是0.1）进行更新。也就是说，看上去在train模式下你没有反向传播更新参数，但是每一个batch经过模型以后，BatchNorm2d的running_mean和running_var持续更新。不过这个更新对输出并不影响，如前面说的，train模式下图像归一化仅与批次数据的batch_mean和batch_var有关。

这事实上也就能够理解为什么很多人说：就BatchNorm2d而言，训练时使用大的batch_size是更好的。因为训练时使用batch_mean和batch_var归一化，而测试时使用running_mean和running_var归一化。训练时更大的batch_size使batch_mean和batch_var更接近于running_mean和running_var，因此训练时的结果和测试时的结果更加相近。另外，更大的batch_size使得训练时的batch_mean和batch_var更加稳定。

还值得注意的是，因为eval模式下使用running_mean和running_var，所以无论你的batch_size设置成多大，它的结果都是一样的。然而，如果你强行用train模式进行测试，此时使用的是batch_mean和batch_var。在batch_size设置较大时，batch_mean和batch_var和running_mean和running_var相近，性能接近于真实性能，而当batch_size设置较小时，batch_mean和batch_var和running_mean和running_var相差很大，那么性能就可能出现很大的问题。

2.多卡训练且模型中包含了BatchNorm2d

如果你进行了多卡训练，同时训练的模型包含了BatchNorm2d层，这可能导致每张卡维护的running_mean和running_var是不同的，最后保存的时候通常只是保存了“当前主卡”（rank 0）上的那一份running_mean和running_var。

为了避免这一情况，多卡训练时需要将BatchNorm2d转换成SyncBatchNorm。关于多卡DDP的使用，博客https://www.cnblogs.com/liyier/p/18136458有详细的说明。

import torch.distributed as dist
from torch.nn.parallel import DistributedDataParallel as DDP
from torch.utils.data import DistributedSampler
import tracebackdef	setup_ddp(rank, world_size)dist.init_process_group(backend="nccl", init_method="env://")torch.cuda.set_device(rank)def cleanup_ddp():dist.destroy_process_group()def main():rank = int(os.environ["LOCAL_RANK"])world_size = int(os.environ["WORLD_SIZE"])setup_ddp(rank, world_size)...dataset = ... #就是正常加载数据集sampler = DistributedSampler(dataset, num_replicas=world_size, rank=rank, shuffle=True)dataloader = DataLoader(dataset, batch_size=64, sampler=sampler, numworkers=8) # 注意，这里不能再手动设置shuffle了，不然就会和sampler冲突报错...model = model.to(rank)model = nn.SyncBatchNorm.convert_sync_batchnorm(model)model = DDP(model, device_ids=[rank], output_device=rank)...model.train()for epoch in range(100):sampler.set_epoch(epoch) # shuffle different on each epochfor inputs, labels in dataloader:inputs = inputs.to(rank)labels = labels.to(rank)if rank == 0:torch.save(...) cleanup_ddp()if __name__ == "__main__":try:main()except Exception as e:print(f"[Rank {os.environ.get('RANK')}] error:")traceback.print_exc()raise e

运行时使用如下代码：

export OMP_NUM_THREADS=4
torchrun --nproc_per_node=2 ./encrypted/code/train.py

查看全文

http://www.dtcms.com/a/213003.html

指针数组和数组指针的区别

ssm-ham项目1

人工智能赋能教育：重塑学习生态，开启智慧未来

小白的进阶之路系列之四----人工智能从初步到精通pytorch自定义数据集上

day36 python神经网络训练

【LLM】LLM源码阅读与分析工具DeepWiki项目

Qt环境的搭建

NextJS 项目，编译成功，但是启动失败的解决方案

Docker镜像存储路径迁移指南（解决磁盘空间不足问题）

嵌入式学习笔记——day27

22 程序控制语句详解：跳转控制（break、continue、goto）、死循环应用、程序控制编程实战

支持单双及四像素模式的testpattern仿真

[DS]使用 Python 库中自带的数据集来实现上述 50 个数据分析和数据可视化程序的示例代码

如何用，向量表示3维空间种的有向线段（4，2，3）

md650透传

Day36打卡 @浙大疏锦行

【RocketMQ 生产者和消费者】- 生产者发送故障延时策略

QListWidget的函数,信号介绍

前端垫片chimp

idea和cursor快速切换

【八股战神篇】操作系统高频面试题

动态导入与代码分割实战

【时时三省】Python 语言----牛客网刷题笔记

Spring | 在Spring中使用@Resource注入List类型的Bean并按优先级排序

Windows鼠标掉帧测试与修复

vue2项目搭建

计算机视觉应用 Slot Attention

JVM 的垃圾回收机制

二叉树层序遍历9

输入共模电压范围（Vcm）和差分输入电压范围（Vdiff）

1.BatchNorm2d归一化图像时所使用的均值（running_mean，batch_mean）和方差（running_var，batch_var）

2.多卡训练且模型中包含了BatchNorm2d

相关文章：