当前位置: 首页 > wzjs >正文

wordpress 云数据库seo网站培训班

wordpress 云数据库,seo网站培训班,我要制作网站,长沙网站制作收费明细表文章目录 第1步检查loss出现nan的源头(排除输入数据问题)第2步 降低学习率查看能否解决(排除是学习率设置不当的问题)第3步 查看是不是数据溢出造成的(混精度运算->统一精度)第四步 确定gpu计算方式第五…

文章目录

  • 第1步检查loss出现nan的源头(排除输入数据问题)
  • 第2步 降低学习率查看能否解决(排除是学习率设置不当的问题)
  • 第3步 查看是不是数据溢出造成的(混精度运算->统一精度)
  • 第四步 确定gpu计算方式
  • 第五步 回到第3步骤,直接全部启用fp32精度参数训练
  • 教训:训练绝对别用fp16,不溢出算我的@@@

第1步检查loss出现nan的源头(排除输入数据问题)

遇到这个问题首先追踪打印loss看看究竟是啥导致了loss出现nan,结果发数据输入没啥问题,就是在训练过程中可训练参数出现inf和nan等:
在这里插入图片描述

第2步 降低学习率查看能否解决(排除是学习率设置不当的问题)

我将学习率从10-5降低十倍,一点点作用都没有
在这里插入图片描述

第3步 查看是不是数据溢出造成的(混精度运算->统一精度)

因为我这个情况比较特殊,我的输入数据是32位的,但是我的模型训练参数是16位的,loss计算是32位的,因为上面也发现我的问题是训练参数inf和nan了,所以我想会不会是精度不一样导致参数计算的时候溢出了。由于我的baseline是16位的,我计划将所有的转换成16位来训练。
结果还是一样,在训练的第一次更新完参数就inf和nan了。
在这里插入图片描述

第四步 确定gpu计算方式

可能你的gpu是半精度(fp16)训练,启用了tf32训练
加上:

torch.backends.cuda.matmul.allow_tf32 = False
torch.backends.cudnn.allow_tf32 = False
with autocast(dtype=torch.float16):

还是报错:
在这里插入图片描述

第五步 回到第3步骤,直接全部启用fp32精度参数训练

这里其实有一个问题:我最终需要的是fp16 的精度(因为怕溢出),但是参与训练是32。
解决:我将参数初始化为32,但是前向计算时候转换成16
在这里插入图片描述

解决了

教训:训练绝对别用fp16,不溢出算我的@@@

http://www.dtcms.com/wzjs/141601.html

相关文章:

  • 哪些网站有二维码上海牛巨微seo优化
  • 设计网站项目描述网站域名查询工具
  • 可以自己做图的网站网站推荐
  • 营销型网站建设专家企业培训系统app
  • 城乡与建设厅网站西安网站关键词优化费用
  • 义乌建设网站调研报告万能模板
  • 网站建设设计外包公司推广普通话绘画
  • 重庆做网站外包公司反向链接查询
  • 安徽做政府网站的企业百度广告联盟官网
  • wordpress积分充值百度seo关键词排名查询
  • 为什么做动漫短视频网站临沂百度公司地址
  • 一只香蕉成人用品店加盟费用seo竞争对手分析
  • 广州中小企业seo推广运营浙江seo
  • 周杰伦做的广告网站青岛做网络推广的公司有哪些
  • 做电子商务系统网站定制网站建设电话
  • wordpress文章页面添加字段seo营销外包公司
  • 内蒙能源建设集团网站实体店怎么推广引流
  • 石家庄百度关键词优化武汉seo关键词优化
  • 百度站长怎么做网站维护网络seo招聘
  • 域名注册好如何做网站网站建设技术
  • 文科女学java 做网站歌尔股份砍单
  • 创业计划书网络营销优化推广
  • 在哪个网站做一件代发靠谱广州市口碑全网推广报价
  • 东莞疫情最新消息今天新增25例seo推广平台
  • 创意网站设计 高端东莞seoseo关键词排名优化
  • 网站开发外包 合同5118素材网站
  • 中企动力做网站要全款有创意的网络营销案例
  • 电子商务网站建设与管理aseo网站诊断流程
  • 宁波专业建设网站建站公司襄阳网站seo
  • 公司做网站需要什么内容优化大师下载安装免费