当前位置：首页 > wzjs >正文

新疆建设兵团纪委监察部网站百度自动优化

wzjs 2025/8/8 1:45:13

新疆建设兵团纪委监察部网站,百度自动优化,松原网站建设,ps网站怎么做滑动背景1.BatchNorm2d归一化图像时所使用的均值（running_mean，batch_mean）和方差（running_var，batch_var） BatchNorm2d在 eval 模式下归一化图像使用的就是训练过程中训练样本累计的running_mean和running_var。 …

1.BatchNorm2d归一化图像时所使用的均值（running_mean，batch_mean）和方差（running_var，batch_var）

BatchNorm2d在 eval 模式下归一化图像使用的就是训练过程中训练样本累计的running_mean和running_var。

然而，在train模式下：（1）BatchNorm2d归一化图像使用的均值和方差为当前批次数据的batch_mean和batch_var；（2）即便不使用反向传播，只要数据经过了模型，模型中BatchNorm2d的均值和方差就会按照(1-momentum) * running_mean + momentum*batch_var（默认momentum是0.1）进行更新。也就是说，看上去在train模式下你没有反向传播更新参数，但是每一个batch经过模型以后，BatchNorm2d的running_mean和running_var持续更新。不过这个更新对输出并不影响，如前面说的，train模式下图像归一化仅与批次数据的batch_mean和batch_var有关。

这事实上也就能够理解为什么很多人说：就BatchNorm2d而言，训练时使用大的batch_size是更好的。因为训练时使用batch_mean和batch_var归一化，而测试时使用running_mean和running_var归一化。训练时更大的batch_size使batch_mean和batch_var更接近于running_mean和running_var，因此训练时的结果和测试时的结果更加相近。另外，更大的batch_size使得训练时的batch_mean和batch_var更加稳定。

还值得注意的是，因为eval模式下使用running_mean和running_var，所以无论你的batch_size设置成多大，它的结果都是一样的。然而，如果你强行用train模式进行测试，此时使用的是batch_mean和batch_var。在batch_size设置较大时，batch_mean和batch_var和running_mean和running_var相近，性能接近于真实性能，而当batch_size设置较小时，batch_mean和batch_var和running_mean和running_var相差很大，那么性能就可能出现很大的问题。

2.多卡训练且模型中包含了BatchNorm2d

如果你进行了多卡训练，同时训练的模型包含了BatchNorm2d层，这可能导致每张卡维护的running_mean和running_var是不同的，最后保存的时候通常只是保存了“当前主卡”（rank 0）上的那一份running_mean和running_var。

为了避免这一情况，多卡训练时需要将BatchNorm2d转换成SyncBatchNorm。关于多卡DDP的使用，博客https://www.cnblogs.com/liyier/p/18136458有详细的说明。

import torch.distributed as dist
from torch.nn.parallel import DistributedDataParallel as DDP
from torch.utils.data import DistributedSampler
import tracebackdef	setup_ddp(rank, world_size)dist.init_process_group(backend="nccl", init_method="env://")torch.cuda.set_device(rank)def cleanup_ddp():dist.destroy_process_group()def main():rank = int(os.environ["LOCAL_RANK"])world_size = int(os.environ["WORLD_SIZE"])setup_ddp(rank, world_size)...dataset = ... #就是正常加载数据集sampler = DistributedSampler(dataset, num_replicas=world_size, rank=rank, shuffle=True)dataloader = DataLoader(dataset, batch_size=64, sampler=sampler, numworkers=8) # 注意，这里不能再手动设置shuffle了，不然就会和sampler冲突报错...model = model.to(rank)model = nn.SyncBatchNorm.convert_sync_batchnorm(model)model = DDP(model, device_ids=[rank], output_device=rank)...model.train()for epoch in range(100):sampler.set_epoch(epoch) # shuffle different on each epochfor inputs, labels in dataloader:inputs = inputs.to(rank)labels = labels.to(rank)if rank == 0:torch.save(...) cleanup_ddp()if __name__ == "__main__":try:main()except Exception as e:print(f"[Rank {os.environ.get('RANK')}] error:")traceback.print_exc()raise e

运行时使用如下代码：

export OMP_NUM_THREADS=4
torchrun --nproc_per_node=2 ./encrypted/code/train.py

查看全文

http://www.dtcms.com/wzjs/260569.html

石狮网站建设公司seo外包公司兴田德润官方地址

网站制作商城网店运营入门基础知识

长春网站建设哪家好网络营销推广论文

永嘉网站建设几百度指数官方网站

个人网站如何做移动端aso排名优化

海门做网站公司2023第二波疫情已经到来了

wordpress分类排序号平台seo

成全视频免费观看在线看小说下载seo公司外包

19寸网站做多大如何进行新产品的推广

网站没有索引量是什么搜索引擎优化的特点

珠海网站系统建设百度一下你就知道官方

简洁的企业网站东莞网站建设市场

wordpress自定义页面跳转seo北京

网站如何做团购适合小学生的最新新闻

做外汇的官方网站视频号关键词搜索排名

邵东做网站的公司seo外链推广

织梦网站三级域名营销策划咨询

手机网站 php宁波网站建设网站排名优化

南宁两学一做党课网站互联网营销案例分析

马蜂窝网站建设现在网络推广哪家好

做淘宝主页网站买域名

nba网站建设广州seo优化电话

怎么制作网站首页win10优化工具

自己搭建环境建设网站推广网站公司

简述网站开发的基本流程网站推广苏州

找人做网站被骗了算诈骗吗百度搜索风云榜小说

鄂尔多斯网站建设浏览广告赚佣金的app

网站产品标签文章标签怎么做的线下引流推广方法

重庆建设电动三轮车莆田seo推广公司

建一个信息类网站百度seo推广计划类型包括

1.BatchNorm2d归一化图像时所使用的均值（running_mean，batch_mean）和方差（running_var，batch_var）

2.多卡训练且模型中包含了BatchNorm2d

相关文章：