当前位置：首页 > wzjs >正文

论坛网站怎么做2023北京封控了

wzjs 2025/8/13 10:06:49

论坛网站怎么做,2023北京封控了,网站建设的科目,免费一键自助建站官网1.BatchNorm2d归一化图像时所使用的均值（running_mean，batch_mean）和方差（running_var，batch_var） BatchNorm2d在 eval 模式下归一化图像使用的就是训练过程中训练样本累计的running_mean和running_var。 …

1.BatchNorm2d归一化图像时所使用的均值（running_mean，batch_mean）和方差（running_var，batch_var）

BatchNorm2d在 eval 模式下归一化图像使用的就是训练过程中训练样本累计的running_mean和running_var。

然而，在train模式下：（1）BatchNorm2d归一化图像使用的均值和方差为当前批次数据的batch_mean和batch_var；（2）即便不使用反向传播，只要数据经过了模型，模型中BatchNorm2d的均值和方差就会按照(1-momentum) * running_mean + momentum*batch_var（默认momentum是0.1）进行更新。也就是说，看上去在train模式下你没有反向传播更新参数，但是每一个batch经过模型以后，BatchNorm2d的running_mean和running_var持续更新。不过这个更新对输出并不影响，如前面说的，train模式下图像归一化仅与批次数据的batch_mean和batch_var有关。

这事实上也就能够理解为什么很多人说：就BatchNorm2d而言，训练时使用大的batch_size是更好的。因为训练时使用batch_mean和batch_var归一化，而测试时使用running_mean和running_var归一化。训练时更大的batch_size使batch_mean和batch_var更接近于running_mean和running_var，因此训练时的结果和测试时的结果更加相近。另外，更大的batch_size使得训练时的batch_mean和batch_var更加稳定。

还值得注意的是，因为eval模式下使用running_mean和running_var，所以无论你的batch_size设置成多大，它的结果都是一样的。然而，如果你强行用train模式进行测试，此时使用的是batch_mean和batch_var。在batch_size设置较大时，batch_mean和batch_var和running_mean和running_var相近，性能接近于真实性能，而当batch_size设置较小时，batch_mean和batch_var和running_mean和running_var相差很大，那么性能就可能出现很大的问题。

2.多卡训练且模型中包含了BatchNorm2d

如果你进行了多卡训练，同时训练的模型包含了BatchNorm2d层，这可能导致每张卡维护的running_mean和running_var是不同的，最后保存的时候通常只是保存了“当前主卡”（rank 0）上的那一份running_mean和running_var。

为了避免这一情况，多卡训练时需要将BatchNorm2d转换成SyncBatchNorm。关于多卡DDP的使用，博客https://www.cnblogs.com/liyier/p/18136458有详细的说明。

import torch.distributed as dist
from torch.nn.parallel import DistributedDataParallel as DDP
from torch.utils.data import DistributedSampler
import tracebackdef	setup_ddp(rank, world_size)dist.init_process_group(backend="nccl", init_method="env://")torch.cuda.set_device(rank)def cleanup_ddp():dist.destroy_process_group()def main():rank = int(os.environ["LOCAL_RANK"])world_size = int(os.environ["WORLD_SIZE"])setup_ddp(rank, world_size)...dataset = ... #就是正常加载数据集sampler = DistributedSampler(dataset, num_replicas=world_size, rank=rank, shuffle=True)dataloader = DataLoader(dataset, batch_size=64, sampler=sampler, numworkers=8) # 注意，这里不能再手动设置shuffle了，不然就会和sampler冲突报错...model = model.to(rank)model = nn.SyncBatchNorm.convert_sync_batchnorm(model)model = DDP(model, device_ids=[rank], output_device=rank)...model.train()for epoch in range(100):sampler.set_epoch(epoch) # shuffle different on each epochfor inputs, labels in dataloader:inputs = inputs.to(rank)labels = labels.to(rank)if rank == 0:torch.save(...) cleanup_ddp()if __name__ == "__main__":try:main()except Exception as e:print(f"[Rank {os.environ.get('RANK')}] error:")traceback.print_exc()raise e

运行时使用如下代码：

export OMP_NUM_THREADS=4
torchrun --nproc_per_node=2 ./encrypted/code/train.py

查看全文

http://www.dtcms.com/wzjs/328505.html

国外有个专门做病毒营销网站seo关键词排名报价

网站建设体会seo优化收费

武昌做网站关键词优化推广公司哪家好

网站建设维护协议百度浏览器网址大全

价格划算的网站开发新闻营销发稿平台

宿迁企业网站建设站长工具seo综合查询降级

中国最大的建材网站北京百度搜索排名优化

网站制作心得体会200字百度竞价优缺点

日本网站做任务网络营销概述ppt

个人做网站的流程seo服务靠谱吗

网站前置审批项教育无线网络优化工程师

好的网站分享nba最新消息交易

网站设计开发文档模板河南网站设计

潍坊网站建设马淄博seo网站推广

济南市历下区建设局官方网站培训课程网站

网站建设好的乡镇系统优化的方法

武威网站建设公司有公司网址怎么制作

wordpress 博客视频苏州关键词优化排名推广

网站开发费分摊多少年网站设计公司网站制作

做网站需要流程seo优化关键词分类

一般招聘网站有哪些自己搭建一个网站

公司做网站b2b吗策划方案模板

山东建设科技产品推广网站推广赚钱平台有哪些

沈阳哪里做网站杭州seo全网营销

网站建设it网站建设介绍ppt

外贸网站建设网络公司b站推广网站入口2023的推广形式

贵金属如何用网站开发客户公司网站域名续费一年多少钱

地下城做解封任务的网站赣州网站建设

毕业设计做旅游网站搜索引擎分析论文

做软件工资高还是网站百度热门排行榜

1.BatchNorm2d归一化图像时所使用的均值（running_mean，batch_mean）和方差（running_var，batch_var）

2.多卡训练且模型中包含了BatchNorm2d

相关文章：