当前位置: 首页 > wzjs >正文

论坛网站怎么做2023北京封控了

论坛网站怎么做,2023北京封控了,网站建设的科目,免费一键自助建站官网1.BatchNorm2d归一化图像时所使用的均值(running_mean,batch_mean)和方差(running_var,batch_var) BatchNorm2d在 eval 模式下归一化图像使用的就是训练过程中训练样本累计的running_mean和running_var。 …

1.BatchNorm2d归一化图像时所使用的均值(running_mean,batch_mean)和方差(running_var,batch_var)

BatchNorm2d在 eval 模式下归一化图像使用的就是训练过程中训练样本累计的running_mean和running_var。

然而,在train模式下:(1)BatchNorm2d归一化图像使用的均值和方差为当前批次数据的batch_mean和batch_var;(2)即便不使用反向传播,只要数据经过了模型,模型中BatchNorm2d的均值和方差就会按照(1-momentum) * running_mean + momentum*batch_var(默认momentum是0.1)进行更新。也就是说,看上去在train模式下你没有反向传播更新参数,但是每一个batch经过模型以后,BatchNorm2d的running_mean和running_var持续更新。不过这个更新对输出并不影响,如前面说的,train模式下图像归一化仅与批次数据的batch_mean和batch_var有关。

这事实上也就能够理解为什么很多人说:就BatchNorm2d而言,训练时使用大的batch_size是更好的。因为训练时使用batch_mean和batch_var归一化,而测试时使用running_mean和running_var归一化。训练时更大的batch_size使batch_mean和batch_var更接近于running_mean和running_var,因此训练时的结果和测试时的结果更加相近。另外,更大的batch_size使得训练时的batch_mean和batch_var更加稳定。

还值得注意的是,因为eval模式下使用running_mean和running_var,所以无论你的batch_size设置成多大,它的结果都是一样的。然而,如果你强行用train模式进行测试,此时使用的是batch_mean和batch_var。在batch_size设置较大时,batch_mean和batch_var和running_mean和running_var相近,性能接近于真实性能,而当batch_size设置较小时,batch_mean和batch_var和running_mean和running_var相差很大,那么性能就可能出现很大的问题。

2.多卡训练且模型中包含了BatchNorm2d

如果你进行了多卡训练,同时训练的模型包含了BatchNorm2d层,这可能导致每张卡维护的running_mean和running_var是不同的,最后保存的时候通常只是保存了“当前主卡”(rank 0)上的那一份running_mean和running_var。

为了避免这一情况,多卡训练时需要将BatchNorm2d转换成SyncBatchNorm。关于多卡DDP的使用,博客https://www.cnblogs.com/liyier/p/18136458有详细的说明。

import torch.distributed as dist
from torch.nn.parallel import DistributedDataParallel as DDP
from torch.utils.data import DistributedSampler
import tracebackdef	setup_ddp(rank, world_size)dist.init_process_group(backend="nccl", init_method="env://")torch.cuda.set_device(rank)def cleanup_ddp():dist.destroy_process_group()def main():rank = int(os.environ["LOCAL_RANK"])world_size = int(os.environ["WORLD_SIZE"])setup_ddp(rank, world_size)...dataset = ... #就是正常加载数据集sampler = DistributedSampler(dataset, num_replicas=world_size, rank=rank, shuffle=True)dataloader = DataLoader(dataset, batch_size=64, sampler=sampler, numworkers=8) # 注意,这里不能再手动设置shuffle了,不然就会和sampler冲突报错...model = model.to(rank)model = nn.SyncBatchNorm.convert_sync_batchnorm(model)model = DDP(model, device_ids=[rank], output_device=rank)...model.train()for epoch in range(100):sampler.set_epoch(epoch) # shuffle different on each epochfor inputs, labels in dataloader:inputs = inputs.to(rank)labels = labels.to(rank)if rank == 0:torch.save(...) cleanup_ddp()if __name__ == "__main__":try:main()except Exception as e:print(f"[Rank {os.environ.get('RANK')}] error:")traceback.print_exc()raise e

运行时使用如下代码:

export OMP_NUM_THREADS=4
torchrun --nproc_per_node=2 ./encrypted/code/train.py
http://www.dtcms.com/wzjs/328505.html

相关文章:

  • 国外有个专门做病毒营销网站seo关键词排名报价
  • 网站建设 体会seo优化收费
  • 武昌做网站关键词优化推广公司哪家好
  • 网站建设维护协议百度浏览器网址大全
  • 价格划算的网站开发新闻营销发稿平台
  • 宿迁企业网站建设站长工具seo综合查询降级
  • 中国最大的建材网站北京百度搜索排名优化
  • 网站制作心得体会200字百度竞价优缺点
  • 日本网站做任务网络营销概述ppt
  • 个人做网站的流程seo服务靠谱吗
  • 网站前置审批项 教育无线网络优化工程师
  • 好的网站分享nba最新消息交易
  • 网站设计开发文档模板河南网站设计
  • 潍坊网站建设 马淄博seo网站推广
  • 济南市历下区建设局官方网站培训课程网站
  • 网站建设好的乡镇系统优化的方法
  • 武威网站建设公司有公司网址怎么制作
  • wordpress 博客 视频苏州关键词优化排名推广
  • 网站开发费分摊多少年网站设计公司网站制作
  • 做网站需要流程seo优化关键词分类
  • 一般招聘网站有哪些自己搭建一个网站
  • 公司做网站b2b吗策划方案模板
  • 山东建设科技产品推广网站推广赚钱平台有哪些
  • 沈阳哪里做网站杭州seo全网营销
  • 网站建设it网站建设介绍ppt
  • 外贸网站建设网络公司b站推广网站入口2023的推广形式
  • 贵金属如何用网站开发客户公司网站域名续费一年多少钱
  • 地下城做解封任务的网站赣州网站建设
  • 毕业设计做旅游网站搜索引擎分析论文
  • 做软件工资高还是网站百度热门排行榜