当前位置: 首页 > news >正文

认识Transformer架构

一.前言

前面我们介绍了RNN相关系列的模型,在当今大模型时代大家认识一下就好了,而本章节我们是要来介绍一下重中之重的Transformer模型,本章节就来介绍一下他的架构,了解Transformer模型的作⽤以及了解Transformer总体架构图中各个组成部分的名称。

二.Transformer模型的作用

基于seq2seq架构的transformer模型可以完成NLP领域研究的典型任务, 如机器翻译, ⽂本⽣成等. 同时⼜可以构建预训练语⾔模型,⽤于不同任务的迁移学习.

在接下来的架构分析中, 我们将假设使⽤Transformer模型架构处理从⼀种语⾔⽂本到另⼀种语⾔⽂本 的翻译⼯作, 因此很多命名⽅式遵循NLP中的规则. ⽐如: Embeddding层将称作⽂本嵌⼊层, Embedding层产⽣的张量称为词嵌⼊张量, 它的最后⼀维将称作词向量等

三.Transformer总体架构图

3.1 Transformer总体架构 

输⼊部分

输出部分

编码器部分

解码器部分 

3.2 输⼊部分包含 

源⽂本嵌⼊层及其位置编码器

⽬标⽂本嵌⼊层及其位置编码器 

 

3.3 输出部分包含 

线性层

softmax层 

 

3.4 编码器部分 

由N个编码器层堆叠⽽成

每个编码器层由两个⼦层连接结构组成

第⼀个⼦层连接结构包括⼀个多头⾃注意⼒⼦层和规范化层以及⼀个残差连接

第⼆个⼦层连接结构包括⼀个前馈全连接⼦层和规范化层以及⼀个残差连接 

 

3.5 解码器部分 

由N个解码器层堆叠⽽成

每个解码器层由三个⼦层连接结构组成

第⼀个⼦层连接结构包括⼀个多头⾃注意⼒⼦层和规范化层以及⼀个残差连接

第⼆个⼦层连接结构包括⼀个多头注意⼒⼦层和规范化层以及⼀个残差连接

第三个⼦层连接结构包括⼀个前馈全连接⼦层和规范化层以及⼀个残差连接 

 

四.总结 

本章节主要是介绍了一下Transformer的架构,后续还会继续更新相关知识,期待大家的点赞关注加收藏

 

http://www.dtcms.com/a/295103.html

相关文章:

  • 【element plus】el-select,allow-create不需要点回车键
  • 【tmux无法使用鼠标滚轮滚动页面的问题】解决方案
  • web自动化--鼠标键盘事件滚动操作
  • HTML5 网页游戏设计开发——1、HTML基础
  • 环境搭建①:下载STM32标准外设库(固件库下载)
  • GNSS差分定位系统之二:差分定位能直接提高移动站的定位精度吗?
  • lwIP学习记录4——裸机移植lwIP工程
  • HCIP一二章笔记
  • Linux运维新手的修炼手扎之第24天
  • 仰望星空:DIY国际空间站(ISS)过境提醒天线
  • Pig Cloud使用Debezium实时监听数据变更
  • pandas库
  • 18-设备虚拟化IRF
  • 题单【函数与结构体】
  • c++--面向对象封装--实践
  • window下c++共享内存,进程互斥锁。
  • 前端跨域请求原理及实践
  • 一二章笔记总结
  • CSP-J系列【2024】P11229 [CSP-J 2024] 小木棍题解
  • 1688官方跨境寻源通API接口调用实战
  • LLM指纹底层技术——混合专家模型
  • CSP-J系列【2023】P9750 [CSP-J 2023] 一元二次方程题解
  • SSH 一键互信配置脚本 V2.0 使用指南
  • 卡尔曼滤波数据融合
  • AI 及开发领域动态与资源汇总(2025年7月23日)
  • 【LeetCode】算法详解#9 ---旋转图像
  • QT开发---基础介绍及环境搭建
  • STM32中SystemCoreClockUpdate函数解读
  • 双写缓冲区 Redo Log
  • 基于GitHub的Terraform自动化管理最佳实践