当前位置: 首页 > news >正文

【大模型知识点】RMSNorm(Root Mean Square Normalization)均方根归一化

介绍: RMSNorm(Root Mean Square Layer Normalization)是一种归一化技术,主要用于深度学习中的神经网络模型,它是 LayerNorm(LN,层归一化)的一种变体。​

应用: LLaMA系列的LLaMA 1和LLaMA 2均采用RMSNorm作为默认归一化方法,显著提升了训练效率和模型性能。DeepSeek V3等开源模型也广泛采用RMSNorm,进一步验证了其有效性。

背景: 参考【AI知识】归一化、批量归一化 、 层归一化 和 实例归一化

LayerNorm(LN)是深度学习中广泛应用的归一化方法,能够稳定训练并加速收敛。然而,LN 计算均值和方差,并对整个特征维度进行归一化,这带来了两个问题:

  • 计算开销较大:LN 需要计算均值和方差,在训练时额外增加计算成本。
  • 均值归一化可能不是必须的:研究发现,仅仅对方差进行归一化(即均方归一化)仍然可以保持模型稳定性,并且可以减少计算量。

RMSNorm原理:

在这里插入图片描述

优点:

计算高效: 只计算均方根(RMS),提高了计算效率,在大规模模型中,RMSNorm 可以减少计算开销。

效果稳定: 在一些应用中,LayerNorm 会因为均值的计算不稳定(例如,存在大的偏差或噪声)导致训练不稳定。RMSNorm不用减去均值,减少了数值波动,使得它对输入数据的极端分布(如极端大或极端小的值)或梯度爆炸的敏感度较低,这种特性在超大规模模型的训练中尤为重要,因为深层网络容易积累数值波动,而RMSNorm能够有效缓解这一问题

相关文章:

  • linux 命令 ls
  • AI模型的构建过程是怎样的(下)
  • 华为OD机试-乘坐保密电梯-回溯(Java 2024 C卷 200分)
  • 分布式锁技术全景解析:从传统锁机制到MySQL、Redis/Redisson与ZooKeeper实现
  • Python 配置文件管理库Hydra 和 OmegaConf的区别
  • 图形学面试题总结
  • Conda 常规用法指南
  • css 知识点整理
  • Python个人学习笔记(15):模块(time)
  • 司南评测集社区 2 月上新一览!
  • Flutter 小技巧之通过 MediaQuery 优化 App 性能
  • 严格把控K8S集群中的操作权限,为普通用户生成特定的kubeconfig文件
  • C++和标准库速成(一)——HelloWorld和名称空间
  • 【从零开始学习计算机科学】编译原理(二)高级编程语言及其语法描述
  • Go红队开发—web网络编程
  • TCP三次握手
  • 前馈神经网络 - 自动梯度计算
  • Mac 如何在idea集成SVN
  • JAVA SE 4.Java各版本特性
  • 如何通过自动化测试提升DevOps效率?
  • 全球前瞻|特朗普19日将与俄乌总统分别通话,英国脱欧后首开英欧峰会
  • 聘期三年已至:37岁香港青年叶家麟卸任三亚市旅游发展局局长
  • 调查:“网约摩的”上线起步价五六元,合规性及安全性引质疑
  • 第十届青春文学奖揭晓,梁晓声获特别奖
  • 经济日报金观平:促进信贷资金畅达小微企业
  • 雅典卫城上空现“巨鞋”形状无人机群,希腊下令彻查