当前位置: 首页 > news >正文

【LLMs篇】05:RMSNorm

RMSNorm 是一种用于神经网络的归一化方法,全称是 Root Mean Square Normalization。与 Batch Normalization 或 Layer Normalization 相比,RMSNorm 是一种更简单、更高效的归一化技术。

工作原理如下

RMSNorm 的核心思想是对输入特征进行归一化,使得它们具有统一的均方根(Root Mean Square, RMS)。具体步骤如下:
a. 计算均方根 (RMS): 对于输入向量 x,首先计算它的均方根:
b. 归一化输入向量:使用均方根对输入向量进行归一化:
c. 缩放和平移:对归一化后的向量进行缩放和平移操作,得到最终的输出:

RMSNorm 的优点:

简单高效: RMSNorm 不需要计算均值和方差,只需要计算均方根,计算量更小。
适应性强: 它可以适用于不同的任务和数据集,尤其是在序列建模任务中表现良好。
稳定性: 由于归一化是基于均方根而不是均值和方差,RMSNorm 对批次大小和输入分布的变化更加鲁棒。

RMSNorm 与其他归一化方法的对比:

Batch Normalization (BN): 需要在训练时对整个批次的数据进行归一化,计算均值和方差,并且在推理时需要保存和使用这些统计量。BN 对于小批次数据可能不稳定。
Layer Normalization (LN): 对单个样本的所有特征进行归一化,计算均值和方差,适用于序列模型和小批次数据。
RMSNorm: 仅需计算均方根,计算量更低,且对批次大小不敏感,特别适用于长序列模型。
在这里插入图片描述
将 Layer Normalization (LN) 改成 RMSNorm (Root Mean Square Layer Normalization) 并将位置从输出层移动到输入层,是 Llama 模型中一个重要的优化:

1. RMSNorm 的优势 (相对于 LayerNorm):

  • 计算效率更高: RMSNorm 的计算比 LayerNorm 更简单。LayerNorm 需要计算均值和标准差,而 RMSNorm 只需要计算均方根(RMS)。这减少了计算量,提高了训练和推理速度。
    • LayerNorm: 计算均值 (mean) 和标准差 (standard deviation)。
    • RMSNorm: 只计算均方根 (root mean square)。
  • 性能相当或更好: 尽管 RMSNorm 更简单,但研究表明,在许多任务中,它的性能与 LayerNorm 相当,甚至在某些情况下更好。特别是在 Transformer 架构中,RMSNorm 已经被证明是有效的。
  • 更稳定 在一些情况下,LayerNorm在训练的初始阶段可能会出现不稳定的情况,而RMSNorm则相对更加稳定。

公式对比:

  • LayerNorm:

    y = (x - mean(x)) / sqrt(variance(x) + epsilon) * gamma + beta
    

    其中:

    • x 是输入
    • mean(x)x 的均值
    • variance(x)x 的方差
    • epsilon 是一个很小的常数,防止除以零
    • gammabeta 是可学习的缩放和平移参数
  • RMSNorm:

    y = x / sqrt(mean(x^2) + epsilon) * gamma
    

    其中:

    • x 是输入
    • mean(x^2)x 平方的均值 (即均方)
    • epsilon 是一个很小的常数,防止除以零
    • gamma 是可学习的缩放参数 (通常没有平移参数 beta)

2. 将 RMSNorm 移到输入层 (相对于输出层) 的优势:

  • 梯度传播更稳定: 将归一化层放在输入端,可以使梯度在反向传播过程中更稳定。在 Transformer 架构中,这有助于缓解梯度消失或爆炸的问题,尤其是在深层网络中。 当归一化层在输出端时,它可能会干扰残差连接(residual connection)的信号,使得梯度传播不那么直接。
  • 更快的收敛: 更稳定的梯度传播通常会导致更快的模型收敛速度。
  • 简化架构: 在输入端进行归一化可以略微简化 Transformer 块的结构。

总结来说,Llama 模型的这一改动是为了:

  1. 提高计算效率 (RMSNorm 比 LayerNorm 计算量更小)。
  2. 保持或提高模型性能 (RMSNorm 在许多任务中与 LayerNorm 性能相当或更好)。
  3. 改善训练稳定性 (输入端 RMSNorm 有助于更稳定的梯度传播)。
  4. 加快收敛速度 (稳定的梯度传播通常导致更快的收敛)。
  5. 简化模型架构

这些优化共同作用,使得 Llama 模型在训练和推理过程中更加高效和稳定。 重要的是要认识到这些改进是经验性的,并且基于对 Transformer 架构的深入理解和大量实验。总的来说,RMSNorm 是一种简单有效的归一化方法,在一些特定场景中(如长序列建模)具有显著的优势。

相关文章:

  • AI 大模型统一集成|微服务 + 认证中心:如何保障大模型 API 的安全调用!
  • docker 部署elk 设置账号密码
  • MAT 启动报错
  • MySQL数据库精研之旅第一期:开启数据管理新旅程
  • yum软件包乾坤大挪移(Yum Package Qiankun Great Migration)
  • mysql 数据库异常排查
  • 认知篇#4:YOLO评价指标及其数学原理的学习
  • 单表查询和多表查询
  • 时序分析笔记
  • PyCharm 5的Python IDE的功能(附工具下载)
  • 建筑兔零基础自学记录49|python爬取百度地图POI实战-3
  • 康谋方案 | AVM合成数据仿真验证方案
  • 优选算法系列(2.滑动窗口_下)
  • Java+Html实现前后端客服聊天
  • anythingLLM之stream-chat传参
  • HttpServletRequest 获取 JSESSIONID
  • 3、数据库的事务隔离级别有哪些?【高频】
  • AOP切入点表达式
  • acwing1233.全球变暖
  • 【sgAutocomplete_v2】自定义组件:基于elementUI的el-input组件开发的搜索输入框(支持本地保存历史搜索关键词、后台获取匹配项)
  • 贵州省总工会党组成员、副主席梁伟接受审查调查
  • 黑灰产工作室为境外诈骗集团养号引流,冒充美女与男性裸聊后敲诈勒索
  • 巴基斯坦关闭全部领空
  • 告别户口本!今天起婚姻登记实现全国通办
  • AI药企英矽智能第三次递表港交所:去年亏损超1700万美元,收入多数来自对外授权
  • 洲际酒店:今年第一季度全球酒店平均客房收入同比增长3.3%