当前位置: 首页 > news >正文

超越注意力机制

超越注意力机制

注意力机制是Transformer模型的明星,甚至拥有专门介绍它的章节。但说实话,Transformer架构的内涵远比表面看到的更丰富。我想让大家关注几个处于辅助地位、却很容易被忽视的组件:层归一化(layer normalization)和前馈网络(FFN,也称为MLP,即多层感知机)。

我们早已习惯对模型的输入进行归一化处理,无论是表格数据中的特征还是图像数据,以至于可能没足够重视归一化层。计算机视觉模型引入了批归一化(batch normalization)来解决著名的“内部协变量偏移”问题——即模型深层的输入很难保持归一化状态。

顾名思义,批归一化通过在一个小批量样本中对单个特征进行标准化来工作,而层归一化则采用不同的思路:它在单个样本中对所有特征进行标准化。在我们讨论的场景中,这些特征指的是token的嵌入向量,以及每个Transformer块生成的相应隐藏状态。

在整个实践实验系列中,你会发现层归一化被格外重视:它们是“一等公民”层,并保持在最高精度的数据类型,以确保模型平稳运行。除了传统的LayerNorm,你可能还会遇到它的变体——均方根归一化(RMSNorm),许多最新模型(如Phi-3)都在使用这种归一化方法。

另一个辅助组件是大家熟知的前馈网络。它通常由几个线性层组成,中间夹着一个激活函数——很典型的结构。以下是Phi-3模型中的MLP结构示例。

(mlp)
http://www.dtcms.com/a/315898.html

相关文章:

  • 【基础】第二篇 Java 类的定义、构造器、成员变量与方法详解
  • hyper-v实战系列:显卡虚拟化(GPU分区)--windows篇详解
  • SpringCloud学习-------Eureka详解
  • FPGA设计思想与验证方法学系列学习笔记003
  • 基于Django的计算机资源爬虫及可视化系统的设计与实现
  • 【motion】HumanML3D 的安装2:psbody-mesh安装成功
  • Django中的转发与重定向详解
  • 利用m0改造循迹模块处理笔记00
  • Windows 安装 RabbitMQ 消息队列超详细步骤(附加详细操作截屏)
  • kettle插件-kettle http post plus插件,轻松解决https post接口无法调用文件流下载问题
  • python的高校考研交流系统
  • FastAPI快速入门P2:与SpringBoot比较
  • ESP-idf框架下的HTTP服务器\HTML 485温湿度采集并长传
  • windows如何查限制每个用户占用的显存大小
  • Node.js高并发下的内存泄漏排查与解决实录
  • 微信小程序的合规检测
  • (LeetCode 每日一题) 3477. 水果成篮 II (暴力)
  • Pytorch-06 如何开启模型训练(模型训练工作流梳理)
  • 几乎不会存在Store Buffer中的指令不提交缓存的情况~
  • Rust进阶-part3-生命周期
  • AI的第一次亲密接触——你的手机相册如何认出你的猫?
  • JavaWeb(苍穹外卖)--学习笔记17(Websocket)
  • 【qt5_study】2.使用Qt Designer构造UI界面(信号与槽)
  • 使用ZYNQ芯片和LVGL框架实现用户高刷新UI设计系列教程(第二十四讲)
  • React18 严格模式下的双重渲染之谜
  • 【01】OpenCV C++实战篇——基于多项式插值的亚像素边缘定位算法
  • NLP自然语言处理 02 RNN及其变体
  • golang 1.24引入alias types的原因
  • Mac上pnpm的安装与使用
  • 《计算机“十万个为什么”》之 面向对象 vs 面向过程:编程世界的积木与流水线