当前位置: 首页 > news >正文

Transformer Decoder 详解


Transformer Decoder 详解

1. 模型结构图解

Transformer Decoder 由 N 个相同的层堆叠而成,每个层包含以下组件(与 Encoder 不同,Decoder 包含两种注意力机制):

Input (Shifted Output)
│
├─> Masked Multi-Head Self-Attention → Add & LayerNorm → Encoder-Decoder Attention → Add & LayerNorm → Feed Forward → Add & LayerNorm
│        │                                  │                              │
│        └───────────────────────┘          └───────────────┘              └───────────────┘
│                  残差连接                               残差连接                       残差连接
│
└─> Output (与输入维度相同)

在这里插入图片描述


2. 核心公式与原理

(1) 带掩码的自注意力(Masked Self-Attention)

  • 输入矩阵:Decoder 输入 X dec ∈ R m × d model X_{\text{dec}} \in \mathbb{R}^{m \times d_{\text{model}}} XdecRm×dmodel(m 是目标序列长度)
  • 注意力掩码:防止当前位置关注未来信息(训练时用于自回归生成)
    Mask i j = { 0 if  i ≥ j − ∞ if  i < j \text{Mask}_{ij} = \begin{cases} 0 & \text{if } i \geq j \\ -\infty & \text{if } i < j \end{cases} Maskij={ 0if ijif i<j
  • 掩码注意力计算
    Attention ( Q , K , V ) = softmax ( Q K T d k + Mask ) V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{Q K^T}{\sqrt{d_k}} + \text{Mask}\right) V Attention
http://www.dtcms.com/a/27788.html

相关文章:

  • 计算机之从入门到精通(From Beginner to Proficient in Computer Science)
  • Qt/C++面试【速通笔记一】
  • 一只企鹅如何改变世界
  • 【Linux C/C++开发】Linux系统轻量级的队列缓存mqueue
  • PassGPT:基于大型语言模型的密码建模和(引导式)生成
  • 【Linux】【网络】不同子网下的客户端和服务器通信
  • PHP+Apache+MySQL安装(Windows)
  • JUC并发—8.并发安全集合一
  • C语言复杂度分析
  • 用HTML5+CSS+JavaScript实现新奇挂钟动画
  • npm安装cnpm,解决node12\14安装cnpm失败问题
  • 在虚拟环境下安装GPU的torch
  • Stack和Queue—模拟实现,实战应用全解析!
  • DeepSeek R1 引发的思考:机器学习时代的人类与 AI 协作
  • 洛谷 P10726 [GESP202406 八级] 空间跳跃 C++ 完整题解
  • MySQL数据库(6)—— 表的增删查改
  • PHP会务会议系统小程序源码
  • 【Leetcode】二叉树的最大深度
  • 什么是bundle?什么是chunk?什么是module?
  • PDF文档管理系统V2.0
  • 《被讨厌的勇气》(七)
  • TensorFlow 2 来训练一个线性回归模型
  • 搜索引擎友好:设计快速收录的网站架构
  • 源码方式安装llama.cpp及调试
  • 跨语言语义理解与生成:多语言预训练方法及一致性优化策略
  • 第1章大型互联网公司的基础架构——1.10 其他NoSQL数据库
  • Java字节码指令详解
  • 2.19学习(php文件后缀)
  • uView UI 在 UniApp 中的集成与配置
  • 部署Langchain-Chatchat