当前位置：首页 > news >正文

layer norm和 rms norm 对比

news 2025/9/1 9:10:56

Layer norm

# Layer Norm 公式
mean = x.mean(dim=-1, keepdim=True)
var = x.var(dim=-1, keepdim=True)
output = (x - mean) / sqrt(var + eps) * gamma + beta

特点：

减去均值（去中心化）
除以标准差（标准化）
包含可学习参数 gamma 和 beta
计算复杂度相对较高

RMS Norm（Root Mean Square归一化）：

# RMS Norm 公式
rms = sqrt(mean(x²))
output = x / rms * gamma

特点：

不减去均值（保持中心）
只除以RMS值
只有一个可学习参数 gamma
计算更简单高效

对比

在这里插入图片描述

代码对比

import torch
import torch.nn as nnclass LayerNorm(nn.Module):def __init__(self, dim, eps=1e-6):super().__init__()self.gamma = nn.Parameter(torch.ones(dim))self.beta = nn.Parameter(torch.zeros(dim))self.eps = epsdef forward(self, x):mean = x.mean(-1, keepdim=True)var = x.var(-1, keepdim=True, unbiased=False)return (x - mean) / torch.sqrt(var + self.eps) * self.gamma + self.betaclass RMSNorm(nn.Module):def __init__(self, dim, eps=1e-6):super().__init__()self.gamma = nn.Parameter(torch.ones(dim))self.eps = epsdef forward(self, x):rms = torch.sqrt(torch.mean(x**2, dim=-1, keepdim=True) + self.eps)return x / rms * self.gamma

http://www.dtcms.com/a/230053.html

相关文章：

【AI学习笔记】Coze工作流写入飞书多维表格（即：多维表格飞书官方插件使用教程）

【学习记录】如何使用 Python 提取 PDF 文件中的内容

2025年计算机科学与网络安全国际会议（CSNS 2025）

【Linux仓库】冯诺依曼体系结构与操作系统【进程·壹】

Delphi用if else实现 select case、switch语句功能，实现case 以字符串为分类条件。

【深度学习优化算法】02：凸性

[蓝桥杯]密码脱落

行为型-迭代器模式

Elasticsearch集群状态为RED且存在未分配分片问题排查诊断

本地IP配置

FTP 和 SFTP 介绍及 C/C++ 实现分析

【拓扑】1639.拓扑排序

NFT 市场开发：基于 Ethereum 和 IPFS 构建去中心化平台

美业破局：AI智能体如何用数据重塑战略决策（5/6）

AI基础认知

电网“逆流”怎么办？如何实现分布式光伏发电全部自发自用？

WPF可拖拽ListView

Android SharedFlow 详解

video-audio-extractor【源码版】

从OSI到TCP/IP：网络协议的演变与作用

设计模式-迪米特法则

3D视觉重构工业智造：解码迁移科技如何用“硬核之眼“重塑生产节拍

Doris查询Hive数据：实现高效跨数据源分析的实践指南

hive 3集成Iceberg 1.7中的Java版本问题

Duix.HeyGem：以“离线+开源”重构数字人创作生态

大数据学习（128）-数据分析实例

【网络安全】漏洞分析：阿帕奇漏洞学习

大数据学习（129）-Hive数据分析

【Web应用】若依框架：基础篇14 源码阅读-后端代码分析-课程管理模块前后端代码分析

设计模式杂谈-模板设计模式