当前位置: 首页 > wzjs >正文

网站域名申请流程网络销售培训学校

网站域名申请流程,网络销售培训学校,营销型网站如何建设,哪里可以做宝盈网站在机器学习中,归一化是一个非常重要的工具,它能帮助我们加速训练的速度。在我们前面的SiglipVisionTransformer 中,也有用到归一化层,如下代码所示: class SiglipVisionTransformer(nn.Module): ##视觉模型的第二层&am…

机器学习归一化一个非常重要工具帮助我们加速训练速度我们前面SiglipVisionTransformer 也有用到归一化如下代码所示

class SiglipVisionTransformer(nn.Module): ##视觉模型的第二层,将模型的调用分为了图像嵌入模型和transformer编码器模型的调用def __init__(self, config:SiglipVisionConfig):super().__init__()self.config = configself.embed_dim = config.hidden_sizeself.embeddings = SiglipVisionEmbeddings(config) ## 负责将图像嵌入成向量self.encoder = SiglipEncoder(config) ## 负责将向量编码成注意力相关的向量self.post_layer_norm = nn.LayerNorm(embed_dim, eps=config.layer_norm_eps) ## 层归一化def forward(self, pixel_values:torch.Tensor) -> torch.Tensor:"""
		pixel_values: [Batch_size,Channels,Height,Width]"""## [ Batch_size,Channels,Height,Width] -> [Batch_size,Num_Patches,Embedding_size] 
		hidden_states = self.embeddings(pixel_values) ## 将图像嵌入成向量# [Batch_size,Num_Patches,Embedding_size] -> [Batch_size,Num_Patches,Embedding_size]
		last_hidden_state = self.encoder(hidden_states) ## 将向量编码成注意力相关的向量# [Batch_size,Num_Patches,Embedding_size] -> [Batch_size,Num_Patches,Embedding_size]
		last_hidden_state = self.post_layer_norm(last_hidden_state)return last_hidden_state

这里post_layer_norm 就是归一化所以本文一起介绍归一化

归一化解决问题

归一化主要解决神经网络训练过程会出现协变量偏移 问题

协变量偏移(Covariate Shift)是指由于输入样本分布不均匀导致神经网络第一输入剧烈变化第一神经网络输入的剧烈变化又会导致神经网络第一输出产生剧烈变化从而影响传递神经网络之后每一导致每一轮迭代神经网络输出输出剧烈变化从而导致梯度非常不稳定参数找不到一个稳定优化方向从而导致训练缓慢

Batch Normalization

假设有一个 mini-batch 的输入 ,也就是:

  • :batch size
  • :通道数(对全连接层来说是特征维度)
  • :空间维度(在卷积层中)

其实本质上Batch Normalization 希望输入特征变化不再那么剧烈希望样本所有特征基于当前批次做一次归一化这样当前批次特征就不会剧烈变化

值得注意图像输入Batch Normalization普通特征Batch Normalization计算差别假定图像输入 [ N, C, H, W ]那么计算公式所示torch通道维度进行归一化每一个通道像素值通过该通道所有图片像素得到平均值归一化这是因为由于图像处理卷积神经网络里面同一个通道共享同一个卷积核整个通道所有像素看成一个特征

如果普通特征输入形如 N, D 】,NBatch_Size, D特征维度每一个特征通过计算所有N对应特征平均方差归一化

来说如下图所示

问题所在

主要问题在于依赖 mini-batch:批量太小时效果差

  • BatchNorm 的均值和方差是 在 batch 维度上估算 的。
  • 如果 batch size 很小(比如在线学习、NLP中的RNN),统计结果不稳定,归一化效果会变差。
  • 对于 batch size=1 时,根本无法统计 batch 内部分布。

因为BN 尝试一个批次代表整体样本分布但是只有批次样本很大时候才能拟合如果批次样本很小那么又会出现协变量偏移的问题

于是又引申出了layer_normalization....

Layer Normalization

Layer Normalization(层归一化)是为了克服 Batch Normalization 的局限性 而提出的,尤其在 batch size 很小处理序列模型(如 RNN、Transformer) 时非常有用。

LN 核心思想

在一个样本内部的所有特征维度上做归一化,而不是像 BatchNorm 那样在 batch 维度上归一化。

LN做法比较简单

图像卷积场景如果输入N,C,H,W分别代表Batch size通道图像高度宽度此时我们N不同图像图像C特征因为每个通道一整张图像像素都是一个特征一张图像总共C特征每个特征看成 H * W向量于是我们所有特征计算均值方差进行归一化

总结

不管BN还是LN归一化操作使得每一个计算value处于标准0,1)正态分布缓解训练过程协变量偏移问题


文章转载自:

http://k8fGe5Hh.rpjyL.cn
http://Aaxd7PfI.rpjyL.cn
http://WOLNK8Dp.rpjyL.cn
http://XzUMWJuV.rpjyL.cn
http://izYeGRrB.rpjyL.cn
http://7Ae1XgyN.rpjyL.cn
http://dwsW8RNG.rpjyL.cn
http://Z5xlvADC.rpjyL.cn
http://DlIQfk5p.rpjyL.cn
http://hfXOedCd.rpjyL.cn
http://avLHACtz.rpjyL.cn
http://qptBfokj.rpjyL.cn
http://yen4ZWUe.rpjyL.cn
http://T5HlNhsw.rpjyL.cn
http://u9jxUcBT.rpjyL.cn
http://cxgT9xlQ.rpjyL.cn
http://8VloEYZ1.rpjyL.cn
http://qo3sXQ26.rpjyL.cn
http://PX8DmQzD.rpjyL.cn
http://ewHJERes.rpjyL.cn
http://S2t3xSUZ.rpjyL.cn
http://UB86FWT8.rpjyL.cn
http://gt2p3EMM.rpjyL.cn
http://PfaV8Ll6.rpjyL.cn
http://J4LGyu1Q.rpjyL.cn
http://YzsenUcU.rpjyL.cn
http://RjECkv6f.rpjyL.cn
http://t3I2n6Gy.rpjyL.cn
http://SYFbA8gn.rpjyL.cn
http://ClZKhlcV.rpjyL.cn
http://www.dtcms.com/wzjs/770304.html

相关文章:

  • 网站什么语言好免费建站网站 百度一下
  • 接手一个新的网站应该怎样做易班网站的建设内容
  • 做网站需要什么执照网站建设 域名主机
  • wordpress子目录建站网页制作与设计是前端吗
  • 营业执照申请网站网站建站公司一站式服务
  • 广州机械网站开发一般通过面试多久上班
  • 三亚网站建设价格公众号怎么运营
  • 兰州网站建设企业名录广东建设工程交易中心网站
  • 晋州有做网站的吗360网站建设官网
  • 网站设计营销餐饮客户管理系统
  • 如何使用ps做网站禅城网页设计
  • 没有网站可以做seo排名吗wordpress好用吗
  • 诸城网站建设哪家好呼叫中心外包
  • 品牌网站建设多少钱购物网站建设网
  • 一分钟建站工业设计案例网站
  • 企业网站建设顾问互联网网站建设方案
  • 深圳网站建设 推荐xtdseo广东企业建网站
  • 网站建设 中企动力公司济南网站建设哪家强 资海
  • 企业网站建设公司多米百度指数人群画像怎么看
  • 哈尔滨自助模板建站网站右侧二维码代码
  • 网站空间数据海外网站推广优化专员
  • 网站空间 按流量计费巴彦淖尔专业做网站的
  • 在线建站系统网站排名第一
  • 公司做网站的费用怎么账务处理seo搜索引擎优化推广
  • 装饰公司营销型网站设计商标注册查询怎么查
  • 佛山网站优化运营建设通一年多少钱
  • 望野博物馆馆长阎焰google seo整站优化
  • 如何制作个人手机网站网站建设与运营的课程标准
  • 电影网站开发PPT模板做网站算新媒体运营吗
  • 网上书店电子商务网站建设绿色郑州网站