当前位置: 首页 > wzjs >正文

免费的源码分享网站轻松seo优化排名

免费的源码分享网站,轻松seo优化排名,网站如何做流量,网页设计学徒培训招生LayerNorm不同于BatchNorm,其与batch大小无关,均值和方差 在 每个样本的特征维度 C 内计算, 适用于 变长输入(如 NLP 任务中的 Transformer) 详细的BatchNorm在之前的一篇文章进行了详细的介绍:深度学习中B…

LayerNorm不同于BatchNorm,其与batch大小无关,均值和方差每个样本的特征维度 C 内计算,
适用于 变长输入(如 NLP 任务中的 Transformer)
详细的BatchNorm在之前的一篇文章进行了详细的介绍:深度学习中Batch Normalization(BN)原理、作用浅析-CSDN博客
这里主要介绍适合于Transformer架构的两个归一化操作RMSNorm 和 LayerNorm

RMSNorm 和 LayerNorm 的本质区别

RMSNorm(Root Mean Square Normalization)和 LayerNorm(Layer Normalization)都是 归一化方法,但它们的本质区别在于 是否去均值(Mean-Centering) 以及 归一化的方式

LayerNorm公式
在这里插入图片描述

  • μ:均值,计算的是特征 xd 维度上的平均值。
  • σ2:方差,用于衡量数值分布的变化范围。
  • γ,β:可学习的缩放和偏移参数。
  • LayerNorm 不仅仅缩放数据,还会让其均值归一化到 0,保证分布居中

RMSNorm公式
在这里插入图片描述

  • RMSNorm 直接用 RMS(x) 归一化,而不去均值
  • RMSNorm 只调整 L2 范数的大小,不影响数据的中心位置

代码实现

class LayerNorm(nn.Module):def __init__(self, dim, eps=1e-5):super().__init__()self.eps = epsself.weight = nn.Parameter(torch.ones(dim))self.bias = nn.Parameter(torch.zeros(dim))def forward(self, x):mean = x.mean(dim=-1, keepdim=True)std = x.var(dim=-1, keepdim=True, unbiased=False).sqrt()return self.weight * (x - mean) / (std + self.eps) + self.biasclass RMSNorm(nn.Module):def __init__(self, dim, eps=1e-5):super().__init__()self.eps = epsself.weight = nn.Parameter(torch.ones(dim))def forward(self, x):rms = torch.sqrt(torch.mean(x ** 2, dim=-1, keepdim=True) + self.eps)return self.weight * (x / rms)

RMSNorm 的优缺点

LayerNorm 的优点

  1. 更稳定的梯度更新
    • 由于均值归 0,梯度更新不会受到偏移影响。
    • 适用于 Transformer、BERT、GPT。
  2. 适用于不同任务
    • 既可以用于 NLP(Transformer),也可以用于 CNN。
    • 适用于变长输入(如 RNN、BERT)。
  3. 训练和推理一致
    • LayerNorm 不依赖 batch_size,在训练和推理时表现一致。

LayerNorm 的缺点

  1. 计算量大
    • 需要 计算均值和方差,相比 RMSNorm 额外增加一次均值计算,计算量更高。
  2. 计算开销大,不适合大模型
    • 大规模 Transformer(如 LLaMA) 中,LayerNorm 计算量太大,影响训练速度。
  3. 对 batch_size 影响较大
    • 小 batch_size 时,LayerNorm 可能表现不稳定。

RMSNorm 的优缺点

RMSNorm 的优点

  1. 计算更快
    • 仅计算 L2 归一化,比 LayerNorm 计算量少 约 30%
  2. 适用于大模型(如 LLaMA, GPT-4)
    • 大模型训练中,RMSNorm 比 LayerNorm 更高效

RMSNorm 的缺点

  1. 不去均值,可能影响训练稳定性
    • 在某些任务中,均值归 0 能稳定训练,而 RMSNorm 不能。
  2. 不适用于 CNN
    • CNN 依赖均值信息,RMSNorm 不计算均值,可能导致训练不稳定。

总结

RMSNorm通过简化归一化过程,降低计算复杂度,提供了一种有效的归一化方法。它在保持模型性能的同时,提高了计算效率,是LayerNorm的有力替代方案。

http://www.dtcms.com/wzjs/463510.html

相关文章:

  • 秦皇岛网站seoseo有哪些经典的案例
  • 网站设计不包括企业建站都有什么网站
  • 服务器网站部署端口配置百度站长工具怎么关闭教程视频
  • 代理免费注册公司微信搜一搜seo优化
  • 长沙网站建设建求购买链接
  • 简易做网站百度账号人工申诉
  • 怎么给网站做spm香飘飘奶茶软文
  • 商业网站模板下载杭州上城区抖音seo有多好
  • 百度 网站改版了百度权重5的网站能卖多少钱
  • 茶叶网站flash模板今日国际新闻大事
  • 成都思乐网站建设站长工具综合查询2020
  • 住房和城乡建设部执法网站宁波seo网站服务
  • 济南做兼职网站怎样在百度上发帖子
  • 徐州做网站需要多少钱百度电话怎么转人工客服
  • 棋牌软件开发源代码seo网站排名推广
  • 书籍类wordpress主题排名优化关键词
  • 税务网站建设管理指导思想关键词推广怎么做
  • 湛江宇锋网站建设google官网登录
  • 网站建设的领军 18年网站建设哪家培训机构学校好
  • 网络推广网站排名国外引流推广平台
  • 网站设计怎么做ppt答辩seo外链平台
  • 响应式机械类网站西安网站建设哪家好
  • 今天新闻摘抄十条seo排名优化表格工具
  • 做网站的伪原创怎么弄产品推广方式及推广计划
  • 成都 网站建设旅游网站的网页设计
  • 网站功能架构图怎么做名风seo软件
  • 北京市住房和城乡建设委网站百度一下百度主页度
  • 山西做网站的企业上海快速排名优化
  • 怎么百度上搜到自己的网站安卓手机优化神器
  • 做网站按钮淘宝seo关键词的获取方法有哪些