当前位置: 首页 > news >正文

From Tranformer to Decoder ONLY

Transformer

为了达到深入浅出的目的,学习之前明确以下几个目标:

  • Transformer 是做什么的
  • Transformer 的输入是什么
  • Transformer 的输出是什么
  • Transformer 是什么,长什么样
  • Transformer 还能怎么优化

在这里插入图片描述
Transformer 模型整体结构分为两个主要部分:

  • Encoder(编码器)部分:负责处理输入,提取表示。
  • Decoder(解码器)部分:接收编码器输出并逐步生成目标输出(用于翻译等任务)。
  • 每个部分由多个结构相同的子层(Layer)堆叠而成。
输入 → Encoder(N层) → 中间表示 → Decoder(N层) → 输出

Add & LayerNorm(残差连接和层归一化)

  • 残差连接:帮助缓解深层网络训练中的梯度消失问题。
  • LayerNorm:标准化激活值,提升训练稳定性和速度。
  • 在每个子层(如注意力层和前馈层)后面都加上这一步骤。

编码器

输入表示(Input Embedding + Positional Encoding)

功能:将离散的输入序列(如词或Token)转换为连续的向量,并加入位置信息。

📌 包括两部分:

  • Input Embedding:将输入 token(如词或子词)映射为固定维度的向量(类似 word2vec、BERT embedding)。
    Positional Encoding(位置编码):为克服 Transformer 不具备顺序感,引入每个位置的向量。最初用的是正弦/余弦函数编码位置。

多头自注意力机制(Multi-Head Self-Attention)

功能:
每个位置可以根据整个输入序列中的其它位置信息动态调整其表示。多头机制增强模型表示能力。

📌 过程:
对每个输入向量 𝑥

多头注意力:

将 Q, K, V 分为多个子空间(多个头),每个头独立计算注意力,再拼接合并。

多头注意力的优势在于模型能关注多个不同的语义子空间。

前馈神经网络( Feed Forward Network)

功能:对每个位置单独地进行非线性变换(增强特征表达能力)。

可理解为对每个 token 表示的“激活变换”。

Decoder

http://www.dtcms.com/a/258734.html

相关文章:

  • SPSS再次使用
  • Linux零基础快速入门到精通
  • 使用Bash脚本RSA公钥加密算法对密码进行加密解密方法
  • vscode中vue自定义组件的标签失去特殊颜色高亮
  • 清华大学联合IDEA推出GUAVA:单幅图像生成实时可动画3D上半身,渲染速度突破0.1秒,可实现实时表情与动作同步。
  • [附源码+数据库+毕业论文]基于Spring+MyBatis+MySQL+Maven+jsp实现的超市库存商品管理系统,推荐!
  • 基于Qt和GDAL的多线程影像重采样工具
  • QT 学习笔记摘要(一)
  • 电动汽车定速巡航模式控制设计方法
  • Flask(六) 数据库操作SQLAlchemy
  • 【LUT技术专题】1D和3DLUT的高效组合-SepLUT
  • Java 线程池技术深度解析与代码实战
  • Petrel导入well数据
  • Nginx性能优化配置指南
  • 【C/C++】C++ 编程规范:101条规则准则与最佳实践
  • [ruby on rails] ActiveJob中 discard_on,retry_on和 rescue_from的应用
  • Python Polars库详解:高性能数据处理的新标杆
  • 使用markRaw实例化echarts对象
  • Python中class对象/属性/方法/封装/继承/多态/魔法方法详解
  • Python案例练习:字典专题(分析文章的文字与次数、设计星座字典、凯撒密码、摩尔斯密码)
  • 利用folium实现全国高校分布地图显示
  • 验证 TCP 连接在异常情况下的断开机制之进程(客户端)被 kill 掉
  • 如何将适用于 Docker 的 ONLYOFFICE 文档更新到 v9.0
  • React性能优化精髓之一:频繁setState导致滚动卡顿的解决方案
  • Verilog基础:编译指令`default_nettype
  • 图像融合中损失函数【3】--梯度强度损失
  • 从零开始学习Spring Cloud Alibaba (一)
  • 市面上重要的AI开发工具和框架
  • 快速搭建系统原型,UI界面,有哪些高效的AI工具和方法
  • Mysql之索引