当前位置：首页 > news >正文

From Tranformer to Decoder ONLY

news 2025/10/9 19:51:35

Transformer

为了达到深入浅出的目的，学习之前明确以下几个目标：

Transformer 是做什么的
Transformer 的输入是什么
Transformer 的输出是什么
Transformer 是什么，长什么样
Transformer 还能怎么优化

在这里插入图片描述
Transformer 模型整体结构分为两个主要部分：

Encoder（编码器）部分：负责处理输入，提取表示。
Decoder（解码器）部分：接收编码器输出并逐步生成目标输出（用于翻译等任务）。
每个部分由多个结构相同的子层（Layer）堆叠而成。

输入 → Encoder（N层） → 中间表示 → Decoder（N层） → 输出

Add & LayerNorm（残差连接和层归一化）

残差连接：帮助缓解深层网络训练中的梯度消失问题。
LayerNorm：标准化激活值，提升训练稳定性和速度。
在每个子层（如注意力层和前馈层）后面都加上这一步骤。

编码器

输入表示（Input Embedding + Positional Encoding）

功能：将离散的输入序列（如词或Token）转换为连续的向量，并加入位置信息。

📌 包括两部分：

Input Embedding：将输入 token（如词或子词）映射为固定维度的向量（类似 word2vec、BERT embedding）。
Positional Encoding（位置编码）：为克服 Transformer 不具备顺序感，引入每个位置的向量。最初用的是正弦/余弦函数编码位置。

多头自注意力机制（Multi-Head Self-Attention）

功能：
每个位置可以根据整个输入序列中的其它位置信息动态调整其表示。多头机制增强模型表示能力。

📌 过程：
对每个输入向量 𝑥

多头注意力：

将 Q, K, V 分为多个子空间（多个头），每个头独立计算注意力，再拼接合并。

多头注意力的优势在于模型能关注多个不同的语义子空间。

前馈神经网络（ Feed Forward Network）

功能：对每个位置单独地进行非线性变换（增强特征表达能力）。

可理解为对每个 token 表示的“激活变换”。

Decoder

查看全文

http://www.dtcms.com/a/258734.html

SPSS再次使用

Linux零基础快速入门到精通

使用Bash脚本RSA公钥加密算法对密码进行加密解密方法

vscode中vue自定义组件的标签失去特殊颜色高亮

清华大学联合IDEA推出GUAVA：单幅图像生成实时可动画3D上半身，渲染速度突破0.1秒，可实现实时表情与动作同步。

[附源码+数据库+毕业论文]基于Spring+MyBatis+MySQL+Maven+jsp实现的超市库存商品管理系统，推荐！

基于Qt和GDAL的多线程影像重采样工具

QT 学习笔记摘要(一)

电动汽车定速巡航模式控制设计方法

Flask(六) 数据库操作SQLAlchemy

【LUT技术专题】1D和3DLUT的高效组合-SepLUT

Java 线程池技术深度解析与代码实战

Petrel导入well数据

Nginx性能优化配置指南

【C/C++】C++ 编程规范：101条规则准则与最佳实践

[ruby on rails] ActiveJob中 discard_on，retry_on和 rescue_from的应用

Python Polars库详解：高性能数据处理的新标杆

使用markRaw实例化echarts对象

Python中class对象/属性/方法/封装/继承/多态/魔法方法详解

Python案例练习：字典专题（分析文章的文字与次数、设计星座字典、凯撒密码、摩尔斯密码）

利用folium实现全国高校分布地图显示

验证 TCP 连接在异常情况下的断开机制之进程(客户端)被 kill 掉

如何将适用于 Docker 的 ONLYOFFICE 文档更新到 v9.0

React性能优化精髓之一：频繁setState导致滚动卡顿的解决方案

Verilog基础：编译指令`default_nettype

图像融合中损失函数【3】--梯度强度损失

从零开始学习Spring Cloud Alibaba (一)

市面上重要的AI开发工具和框架

快速搭建系统原型，UI界面，有哪些高效的AI工具和方法

Mysql之索引