当前位置: 首页 > news >正文

网站建设网络推广锦州网站推广

网站建设网络推广,锦州网站推广,简约型网站建设,银川品牌网站建设公司大模型架构-Transformer、Mamba、Hyena 序列建模发展基本信息总结计算步骤对比(输入为字母序列时)计算步骤解释(输入为字母序列时)BERT参数量计算 个人学习自用,一些解释限于仅处理字母序列,有错误或不准确…

大模型架构-Transformer、Mamba、Hyena

  • 序列建模发展基本信息总结
  • 计算步骤对比(输入为字母序列时)
  • 计算步骤解释(输入为字母序列时)
  • BERT参数量计算

个人学习自用,一些解释限于仅处理字母序列,有错误或不准确的地方欢迎指正

序列建模发展基本信息总结

模型架构提出年份引用量(截至25.5.3)核心机制变体模型时间复杂度长距离建模并行性输入变化后续传播适用场景
RNN/LSTM/GRU1980/1997/2014\递归结构\O(n)差/好/较好\\短序列建模/长序列建模/资源受限场景
Transformer NIPS会议2017.6 (谷歌)178283自注意力机制BERT / GPTO(n²) 超长序列受限优秀优秀token→嵌入(+位置编码)→Q/K/V全局注意力长序列建模,主流NLP任务
Mamba 仅预印本2023.12(卡内基梅隆大学)3113状态空间更新Vision MambaO(n)优秀优秀token→嵌入→动态状态更新参数状态更新多模态长序列建模
Hyena ICML会议2023.2(斯坦福大学)347长卷积+门控Striped HyenaO(N log L)优秀优秀token→嵌入→门控+卷积核生成卷积超长序列建模,生物序列等领域

在这里插入图片描述

计算步骤对比(输入为字母序列时)

步骤TransformerMambaHyena异同
1. 分词需要需要需要相同
2. 词嵌入token 映射为向量token 映射为向量token 映射为向量相同
3. 位置编码必须,否则序列无顺序感可选,SSM 隐顺序可选,卷积天然顺序感知不同
4. 投影
(X: 嵌入;W: 权重)
Q = X ⋅ W Q Q = X \cdot W_Q Q=XWQ
K = X ⋅ W K K = X \cdot W_K K=XWK
V = X ⋅ W V V = X \cdot W_V V=XWV
Q 查询向量,KV 键值对
状态空间输入向量:
u t = X ⋅ W p r o j u_t = X \cdot W_{proj} ut=XWproj
门控准备:
z t = σ ( X ⋅ W g a t e ) z_t = \sigma(X \cdot W_{gate}) zt=σ(XWgate)
卷积准备:
h t = X ⋅ W c o n v _ p r o j h_t = X \cdot W_{conv\_proj} ht=XWconv_proj
不同
5. 主干运算注意力得分:
scores = Q K T d \text{scores} = \frac{QK^T}{\sqrt{d}} scores=d QKT

注意力输出:
attn_out = softmax(scores) ⋅ V \text{attn\_out} = \text{softmax(scores)} \cdot V attn_out=softmax(scores)V

前馈映射:
FFN = MLP(attn_out) \text{FFN} = \text{MLP(attn\_out)} FFN=MLP(attn_out)
动态矩阵:
A ( x t ) , B ( x t ) , C ( x t ) , D ( x t ) A(x_t), B(x_t), C(x_t), D(x_t) A(xt),B(xt),C(xt),D(xt)

状态更新:
h t = A ( x t ) ⋅ h t − 1 + B ( x t ) ⋅ x t h_t = A(x_t) \cdot h_{t-1} + B(x_t) \cdot x_t ht=A(xt)ht1+B(xt)xt

输出:
y t = C ( x t ) ⋅ h t + D ( x t ) ⋅ x t y_t = C(x_t) \cdot h_t + D(x_t) \cdot x_t yt=C(xt)ht+D(xt)xt
长卷积计算:
conv_out = h t ∗ k ( τ ) \text{conv\_out} = h_t * k(\tau) conv_out=htk(τ)
K ( t ) K(t) K(t) 卷积核长度为 t t t
不同
6. 非线性激活前馈网络内使用
ReLU / GeLU
可选激活
SiLU 或其他
卷积后
ReLU / SiLU 激活
相似,位置不同
7. 残差连接Attention 和 FFN 输出加残差SSM 输出加残差卷积输出加残差相同
8. 层归一化每子层后 LayerNorm每 SSM/模块后 LayerNorm每模块块后 LayerNorm相同
9. 输出层线性变换 + Softmax 分类或回归线性映射 + 分类或回归卷积输出或后接 MLP不同

在这里插入图片描述

计算步骤解释(输入为字母序列时)

模型主干运算解释输入嵌入
Tokenization + Embedding
输入嵌入
位置编码
公式解释补充
对应下表 5.主干运算补充
Transformer
核心: 自注意力机制
1. 多头自注意力机制 (Multi-Head Self-Attention)
模型在不同表示的子空间中并行地关注不同位置。
2. 前馈神经网络 (Feed-Forward Neural Network, FFN)
对每个位置的表示进行非线性变换。
DNA Tokenize
k-mer、BPE、单碱基、可学习分词…

Embedding
将每个 token 转为向量(词嵌入矩阵)
Transformer 需添加位置编码,引入序列中 token 位置信息。QKV → softmax → FFN
计算 token 间相似度
聚合值向量
提取深层特征
Mamba
核心: 结构化状态空间模型
1. 卷积层 (Convolution):捕捉局部上下文信息。
2. 选择性状态空间模块 (Selective SSM)
动态地建模序列中的长期依赖关系。
同上Mamba、Hyena 内部机制保留顺序依赖,
因此不使用位置编码,或使用简单增量偏置。
状态更新 → 选择性机制
A(x):控制前一状态的更新比例
B(x):控制当前输入对状态的影响
C(x):控制状态对最终输出的影响
D(x):控制输入对最终输出的影响
Hyena
核心: 隐式长卷积
1. 门控机制 (Gating Mechanism):控制信息流动。
2. 长卷积 (Long Convolution):捕捉长距离依赖关系。
同上同上隐式卷积 → 门控
控制信息前后强化/弱化
准备卷积输入、执行长距离卷积(FFT 实现)

在这里插入图片描述

BERT参数量计算

BERT参数量 = embedding层参数 + 层数 * 各层的参数 + 输出层参数。
假设训练此BERT,就1条训练数据(ACTG)长度为4,共2层Transformer,隐藏层维度hidden_size=8

步骤模块参数形状参数量说明
嵌入层:40+32=72词嵌入矩阵(5, 8)40词表大小 5 (A/C/T/G/[MASK]),嵌入维度 8
位置编码(4, 8)32序列最大长度 4,可学习位置编码
投影层:64×4 = 256Q 线性映射(8, 8)64Query
K 线性映射(8, 8)64Key
V 线性映射(8, 8)64Value
注意力输出映射 ( W o u t p u t W_{output} Woutput)(8, 8)64
FFN 子层:280FFN 升维(8, 16)128第一层全连接
FFN 升维偏置(16,)16
FFN 降维(16, 8)128第二层全连接
FFN 降维偏置(8,)8
LayerNorm:32LayerNorm1:Attention 后γ: (8,), β: (8,)16γ 是缩放函数,β 是偏移参数
LayerNorm2:FFN 后γ: (8,), β: (8,)16每个特征维度单独缩放平移
输出层:40+5=45输出层权重(8, 5)40嵌入维度 → 词表大小
输出层偏置(5,)5
全部总参数:嵌入层 72 + 两层 Transformer 共 1136 + 输出层 45 = 1253

在这里插入图片描述

http://www.dtcms.com/a/468535.html

相关文章:

  • 网站运营推广怎么做陕西网站建设企业
  • 网站开发安卓开发制作网页游戏引擎
  • 商城网站都有什么功能模块企业数字化管理
  • 微商做网站深圳设计大学
  • 旅游景点网站建设现状一个人做运营网站
  • 如何做自己的淘宝优惠券网站免费咨询医生皮肤科专家
  • 阜宁县网站建设重庆关键词搜索排名
  • 邢台做网站推广的公司网站建设外包公司容易被客户投诉吗
  • 网站建设需要什么岗位的人南京驰铭做网站公司
  • 做博物馆网站最重要wordpress改 cms
  • c# 开发网站开发广州城中村
  • 制作网站用c 做前台用php做的网站有哪些
  • 一站式网站建设顾问邮箱网站架构
  • wordpress json 插件建站优化是什么
  • 视频会议系统直播聊天网站开发自己做网站软件
  • 58做网站联系电话wordpress极客学院
  • 成都广告公司名单企业网站排名提升软件能优化
  • 西宁企业网站建设WordPress使用两个模板
  • 怎么做网站手机版网站开发怎么接单
  • 个体工商户网站备案流程内蒙古自治区工程建设网站
  • 做微信网站公司建设一个购物网站需要什么
  • 陕西手机网站建设公司排名张家口建设局网站
  • 企业为什么要做建站wordpress插件安装目录下
  • 五个常见的电子商务网站网址wordpress语言包插件
  • html5网站app开发在哪个彩票网站是小黄人做头像的
  • 沈阳做网站公司哪家好wordpress需要付费才能看某些页面
  • 济南网站建设行知科技不错h5手机制作软件app有哪些
  • 设计素材网站排行榜百度云手机登录入口
  • 做特卖的网站爱库存wordpress管理信息系统
  • 做视频网站 买带宽网站 东莞长安