当前位置: 首页 > news >正文

From Tranformer to Decoder ONLY

Transformer

为了达到深入浅出的目的,学习之前明确以下几个目标:

  • Transformer 是做什么的
  • Transformer 的输入是什么
  • Transformer 的输出是什么
  • Transformer 是什么,长什么样
  • Transformer 还能怎么优化

在这里插入图片描述
Transformer 模型整体结构分为两个主要部分:

  • Encoder(编码器)部分:负责处理输入,提取表示。
  • Decoder(解码器)部分:接收编码器输出并逐步生成目标输出(用于翻译等任务)。
  • 每个部分由多个结构相同的子层(Layer)堆叠而成。
输入 → Encoder(N层) → 中间表示 → Decoder(N层) → 输出

Add & LayerNorm(残差连接和层归一化)

  • 残差连接:帮助缓解深层网络训练中的梯度消失问题。
  • LayerNorm:标准化激活值,提升训练稳定性和速度。
  • 在每个子层(如注意力层和前馈层)后面都加上这一步骤。

编码器

输入表示(Input Embedding + Positional Encoding)

功能:将离散的输入序列(如词或Token)转换为连续的向量,并加入位置信息。

📌 包括两部分:

  • Input Embedding:将输入 token(如词或子词)映射为固定维度的向量(类似 word2vec、BERT embedding)。
    Positional Encoding(位置编码):为克服 Transformer 不具备顺序感,引入每个位置的向量。最初用的是正弦/余弦函数编码位置。

多头自注意力机制(Multi-Head Self-Attention)

功能:
每个位置可以根据整个输入序列中的其它位置信息动态调整其表示。多头机制增强模型表示能力。

📌 过程:
对每个输入向量 𝑥

多头注意力:

将 Q, K, V 分为多个子空间(多个头),每个头独立计算注意力,再拼接合并。

多头注意力的优势在于模型能关注多个不同的语义子空间。

前馈神经网络( Feed Forward Network)

功能:对每个位置单独地进行非线性变换(增强特征表达能力)。

可理解为对每个 token 表示的“激活变换”。

Decoder

相关文章:

  • 做两个阿里网站武汉seo人才
  • 在网站插入微博静态的网页出的来到服务器出不来北京seo优化诊断
  • 网站怎么做英文版的爱站网综合查询
  • 门户网站开发多少钱怎么建个网站
  • 帮别人做高仿产品网站 违法么在线bt种子
  • 网站系统繁忙seo对网店推广的作用
  • SPSS再次使用
  • Linux零基础快速入门到精通
  • 使用Bash脚本RSA公钥加密算法对密码进行加密解密方法
  • vscode中vue自定义组件的标签失去特殊颜色高亮
  • 清华大学联合IDEA推出GUAVA:单幅图像生成实时可动画3D上半身,渲染速度突破0.1秒,可实现实时表情与动作同步。
  • [附源码+数据库+毕业论文]基于Spring+MyBatis+MySQL+Maven+jsp实现的超市库存商品管理系统,推荐!
  • 基于Qt和GDAL的多线程影像重采样工具
  • QT 学习笔记摘要(一)
  • 电动汽车定速巡航模式控制设计方法
  • Flask(六) 数据库操作SQLAlchemy
  • 【LUT技术专题】1D和3DLUT的高效组合-SepLUT
  • Java 线程池技术深度解析与代码实战
  • Petrel导入well数据
  • Nginx性能优化配置指南
  • 【C/C++】C++ 编程规范:101条规则准则与最佳实践
  • [ruby on rails] ActiveJob中 discard_on,retry_on和 rescue_from的应用
  • Python Polars库详解:高性能数据处理的新标杆
  • 使用markRaw实例化echarts对象
  • Python中class对象/属性/方法/封装/继承/多态/魔法方法详解
  • Python案例练习:字典专题(分析文章的文字与次数、设计星座字典、凯撒密码、摩尔斯密码)