当前位置: 首页 > news >正文

layer norm和 rms norm 对比

Layer norm

# Layer Norm 公式
mean = x.mean(dim=-1, keepdim=True)
var = x.var(dim=-1, keepdim=True)
output = (x - mean) / sqrt(var + eps) * gamma + beta

特点:

  • 减去均值(去中心化)
  • 除以标准差(标准化)
  • 包含可学习参数 gamma 和 beta
  • 计算复杂度相对较高

RMS Norm(Root Mean Square归一化):

# RMS Norm 公式
rms = sqrt(mean())
output = x / rms * gamma

特点:

  • 不减去均值(保持中心)
  • 只除以RMS值
  • 只有一个可学习参数 gamma
  • 计算更简单高效

对比

在这里插入图片描述
在这里插入图片描述

代码对比

import torch
import torch.nn as nnclass LayerNorm(nn.Module):def __init__(self, dim, eps=1e-6):super().__init__()self.gamma = nn.Parameter(torch.ones(dim))self.beta = nn.Parameter(torch.zeros(dim))self.eps = epsdef forward(self, x):mean = x.mean(-1, keepdim=True)var = x.var(-1, keepdim=True, unbiased=False)return (x - mean) / torch.sqrt(var + self.eps) * self.gamma + self.betaclass RMSNorm(nn.Module):def __init__(self, dim, eps=1e-6):super().__init__()self.gamma = nn.Parameter(torch.ones(dim))self.eps = epsdef forward(self, x):rms = torch.sqrt(torch.mean(x**2, dim=-1, keepdim=True) + self.eps)return x / rms * self.gamma

相关文章:

  • 【AI学习笔记】Coze工作流写入飞书多维表格(即:多维表格飞书官方插件使用教程)
  • 【学习记录】如何使用 Python 提取 PDF 文件中的内容
  • 2025年计算机科学与网络安全国际会议(CSNS 2025)
  • 【Linux仓库】冯诺依曼体系结构与操作系统【进程·壹】
  • Delphi用if else实现 select case、switch语句功能,实现case 以字符串为分类条件。
  • 【深度学习优化算法】02:凸性
  • [蓝桥杯]密码脱落
  • 行为型-迭代器模式
  • Elasticsearch集群状态为RED且存在未分配分片问题排查诊断
  • 本地IP配置
  • FTP 和 SFTP 介绍及 C/C++ 实现分析
  • 【拓扑】1639.拓扑排序
  • NFT 市场开发:基于 Ethereum 和 IPFS 构建去中心化平台
  • 美业破局:AI智能体如何用数据重塑战略决策(5/6)
  • AI基础认知
  • 电网“逆流”怎么办?如何实现分布式光伏发电全部自发自用?
  • WPF可拖拽ListView
  • Android SharedFlow 详解
  • video-audio-extractor【源码版】
  • 从OSI到TCP/IP:网络协议的演变与作用
  • 慈利县建设局网站/网络公司是做什么的
  • 上海央企排名前十名/武汉seo工作室
  • 做网站代理好吗/软文范例大全100字
  • 郑州网站建设多少钱/网上推广培训
  • 做推广网站的文章/百度网站域名
  • 长春网长春网络推广站排名/云巅seo