当前位置: 首页 > news >正文

Transformer Decoder 详解


Transformer Decoder 详解

1. 模型结构图解

Transformer Decoder 由 N 个相同的层堆叠而成,每个层包含以下组件(与 Encoder 不同,Decoder 包含两种注意力机制):

Input (Shifted Output)
│
├─> Masked Multi-Head Self-Attention → Add & LayerNorm → Encoder-Decoder Attention → Add & LayerNorm → Feed Forward → Add & LayerNorm
│        │                                  │                              │
│        └───────────────────────┘          └───────────────┘              └───────────────┘
│                  残差连接                               残差连接                       残差连接
│
└─> Output (与输入维度相同)

在这里插入图片描述


2. 核心公式与原理

(1) 带掩码的自注意力(Masked Self-Attention)

  • 输入矩阵:Decoder 输入 X dec ∈ R m × d model X_{\text{dec}} \in \mathbb{R}^{m \times d_{\text{model}}} XdecRm×dmodel(m 是目标序列长度)
  • 注意力掩码:防止当前位置关注未来信息(训练时用于自回归生成)
    Mask i j = { 0 if  i ≥ j − ∞ if  i < j \text{Mask}_{ij} = \begin{cases} 0 & \text{if } i \geq j \\ -\infty & \text{if } i < j \end{cases} Maskij={ 0if ijif i<j
  • 掩码注意力计算
    Attention ( Q , K , V ) = softmax ( Q K T d k + Mask ) V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{Q K^T}{\sqrt{d_k}} + \text{Mask}\right) V Attention

相关文章:

  • 计算机之从入门到精通(From Beginner to Proficient in Computer Science)
  • Qt/C++面试【速通笔记一】
  • 一只企鹅如何改变世界
  • 【Linux C/C++开发】Linux系统轻量级的队列缓存mqueue
  • PassGPT:基于大型语言模型的密码建模和(引导式)生成
  • 【Linux】【网络】不同子网下的客户端和服务器通信
  • PHP+Apache+MySQL安装(Windows)
  • JUC并发—8.并发安全集合一
  • C语言复杂度分析
  • 用HTML5+CSS+JavaScript实现新奇挂钟动画
  • npm安装cnpm,解决node12\14安装cnpm失败问题
  • 在虚拟环境下安装GPU的torch
  • Stack和Queue—模拟实现,实战应用全解析!
  • DeepSeek R1 引发的思考:机器学习时代的人类与 AI 协作
  • 洛谷 P10726 [GESP202406 八级] 空间跳跃 C++ 完整题解
  • MySQL数据库(6)—— 表的增删查改
  • PHP会务会议系统小程序源码
  • 【Leetcode】二叉树的最大深度
  • 什么是bundle?什么是chunk?什么是module?
  • PDF文档管理系统V2.0
  • 司法服务保障西部陆海新通道建设,最高法专门发文
  • 解放日报:上海深化改革开放,系统集成创新局
  • 习近平在上海考察时强调,加快建成具有全球影响力的科技创新高地
  • 国家统计局:一季度全国规模以上文化及相关产业企业营业收入增长6.2%
  • 中日友好医院通报“医师肖某被举报”:基本属实,开除党籍并解聘
  • 伊朗港口爆炸最新情况:14死700多伤,大火延烧,调查困难