当前位置: 首页 > news >正文

网站内容不收录光做网站推广咋样

网站内容不收录,光做网站推广咋样,杭州小程序搭建,wordpress 翻页效果文章目录激活值的内存公式首先明确变量含义左边项:sbh34sbh \times 34sbh34(MLP及点乘操作的激活值)1. 多头注意力模块的激活值(约12sbhsbhsbh)2. MLP模块的激活值(约22sbhsbhsbh)总和&#xff…

激活值的内存公式

在这里插入图片描述

首先明确变量含义

在Transformer模型的内存分析中,这些变量通常表示:

  • sss:序列长度(sequence length,输入文本的token数量);
  • bbb:批次大小(batch size,一次训练的样本数);
  • hhh:隐藏层维度(hidden dimension,每个token的特征向量维度);
  • aaa:注意力头数(number of attention heads,多头注意力的头数量)。

左边项:sbh×34sbh \times 34sbh×34(MLP及点乘操作的激活值)

Transformer的每个编码器/解码器层包含多头注意力MLP两个核心模块,这两个模块会产生大量中间激活值(需要临时存储的张量),这些激活值的总内存可以汇总为sbh×34sbh \times 34sbh×34,具体拆解如下:

1. 多头注意力模块的激活值(约12sbhsbhsbh

多头注意力的核心计算流程为:
输入xxx(形状b×s×hb \times s \times hb×s×h)→ 线性变换生成Q,K,VQ, K, VQ,K,V → 计算注意力分数 → 与VVV加权求和 → 输出线性变换。
其中需要存储的激活值包括:

  • Q,K,VQ, K, VQ,K,V:每个都是b×s×hb \times s \times hb×s×h(总3sbhsbhsbh);
  • 注意力输出的中间结果(与VVV加权求和后,未经过最终线性变换):b×s×hb \times s \times hb×s×h(1sbhsbhsbh);
  • 多头注意力的最终输出(经过线性变换后):b×s×hb \times s \times hb×s×h(1sbhsbhsbh);
  • 层归一化(LayerNorm)的中间变量(如归一化前的残差、均值、方差等):约2sbhsbhsbh
  • 其他点乘操作(如QQQKTK^TKT的中间结果,虽然是二次项,但此处“点乘”可能指线性变换的矩阵乘法输出):约5sbhsbhsbh(不同实现细节可能有差异)。

2. MLP模块的激活值(约22sbhsbhsbh

MLP通常由“线性变换→激活函数→线性变换”组成,且中间维度会扩展(通常为4h4h4h),激活值包括:

  • 第一个线性变换的输出(扩展到4h4h4h):b×s×4hb \times s \times 4hb×s×4h(4sbhsbhsbh);
  • 激活函数(如GELU)的输出(与上一步同形状):b×s×4hb \times s \times 4hb×s×4h(4sbhsbhsbh);
  • 第二个线性变换的输出(还原到hhh):b×s×hb \times s \times hb×s×h(1sbhsbhsbh);
  • 层归一化的中间变量(残差、均值、方差等):约2sbhsbhsbh
  • 其他辅助计算(如dropout的掩码、临时缓存等):约11sbhsbhsbh(不同框架实现差异较大)。

总和:约34sbhsbhsbh

多头注意力(12sbhsbhsbh)+ MLP(22sbhsbhsbh)的激活值总和约为34sbhsbhsbh,这就是左边项的来源。

右边项:5abs25abs^25abs2(softmax及注意力的二次项)

注意力机制中存在与序列长度sss相关的二次项激活值(形状含s×ss \times ss×s),这些是内存消耗的“大头”,具体来源如下:

1. 注意力分数矩阵(核心二次项)

多头注意力中,QQQb×a×s×h/ab \times a \times s \times h/ab×a×s×h/a)与KTK^TKTb×a×h/a×sb \times a \times h/a \times sb×a×h/a×s)的点积会生成注意力分数矩阵,形状为b×a×s×sb \times a \times s \times sb×a×s×s(每个头、每个样本都有一个s×ss \times ss×s的矩阵),其内存为b×a×s×s=abs2b \times a \times s \times s = abs^2b×a×s×s=abs2

2. softmax的中间激活值

对注意力分数矩阵应用softmax后,结果仍为b×a×s×sb \times a \times s \times sb×a×s×s(与输入同形状),需要额外存储,内存也是abs2abs^2abs2

3. 其他二次项

  • 注意力权重(softmax输出)与VVVb×a×s×h/ab \times a \times s \times h/ab×a×s×h/a)相乘的中间结果(未拼接多头前):约2abs22abs^22abs2(不同实现的临时缓存);
  • 掩码(mask)相关的临时张量(如填充掩码、因果掩码):约abs2abs^2abs2

总和:约5abs2abs^2abs2

上述二次项激活值总和约为5abs2abs^2abs2,即sbh×5ashsbh \times 5\frac{as}{h}sbh×5has(推导:ash×sbh=abs2\frac{as}{h} \times sbh = abs^2has×sbh=abs2)。

总结

激活值的内存公式是对Transformer层中两类核心激活值的汇总:

  • 左边34sbh34sbh34sbh:来自MLP和注意力中的“线性变换输出”(与sssbbbhhh线性相关);
  • 右边5abs25abs^25abs2:来自注意力机制中的“二次项”(与s2s^2s2相关,是长序列场景下的内存瓶颈)。

这两类激活值共同决定了Transformer在训练/推理时的内存占用,尤其是当sss很大时(如长文本),二次项abs2abs^2abs2会成为主导因素。

http://www.dtcms.com/a/454351.html

相关文章:

  • 人力资源管理的思维方式学习笔记5
  • 自己做soho需要做网站吗科讯网站发布文章
  • 网站在建设中网站开发要多长时间
  • 学校网站建设及使用档案银川网站建设公司哪家好
  • 做网站高流量赚广告费资兴市网站建设专业
  • 济南联通网站备案科技公司名称大全简单大气
  • 做网站新闻移动动态炫酷的html5网站
  • 网站建设属于哪个分类编码站长工具查询网
  • 做爰全过程免费的视频的网站wordpress阅读量插件
  • java里增强for循环的原理分析
  • 自助网站建设哪家效益快wordpress怎么调用多语言包
  • 网页在线短网址生成器深圳宝安seo外包
  • 嘉兴网站搜索优化wordpress 分库
  • 重庆建设银行网站西安网站建设公司排
  • CompletableDeferred 使用和注意事项
  • 安贞网站建设公司烟台网站开发公司
  • 第10讲:操作符详解——掌握C语言的“运算密码”
  • 安平县哪家做网站手机站电影
  • 大淘客网站上的推广怎么做网站建设设计风格描述
  • 简述常用的网站开发软件产品设计和工业设计有什么区别
  • 建设网站制作汉狮团队wordpress mysql 挂了
  • 移动端公众号网站开发软文发稿平台有哪些
  • 计算机操作系统:操作系统的目标与作用
  • paypal客户端网站建设评价网页制作收入
  • 重庆做兼职哪个网站网页升级跳转自动刷新
  • 网站 翻页 实现网站集约化建设方案
  • 公司网站管理图片制作ppt的软件是什么
  • Altium Desinger阵列式粘贴使用
  • 临沂seo网站推广曹鹏wordpress教程 下载
  • PyQt批量年龄计算工具:从身份证到指定日期的周岁处理