当前位置: 首页 > news >正文

fun-transformer学习笔记-Task1——Transformer、Seq2Seq、Encoder-Decoder、Attention之间的关系

Transformer、Seq2Seq、Encoder-Decoder、Attention由这四者之间的关系可以从模型架构的发展脉络来理解:

  1. Seq2Seq 与 Encoder–Decoder 模型
    “Seq2Seq”(sequence‐to‐sequence)是一类用于将一个变长序列映射为另一个变长序列的任务(例如机器翻译、对话生成等)。为了解决这类任务,人们提出了Encoder–Decoder 模型

    • 编码器(Encoder):读取输入序列,将其转换为一个(或一系列)隐藏表示(通常是固定长度的向量或者一个隐藏状态序列)。
    • 解码器(Decoder):根据编码器输出的表示,逐步生成目标序列。
      在早期的实现中,编码器和解码器常用的是循环神经网络(RNN、LSTM或GRU)。
  2. Attention 机制的引入
    传统的 Encoder–Decoder 模型将整个输入序列压缩成一个固定的向量,这在处理长序列时往往会丢失关键信息(即所谓的信息瓶颈问题)。为了解决这一问题,Attention 机制被引入到 Seq2Seq 模型中:

    • 在每个解码步骤中,解码器不再仅依赖那个固定的上下文向量,而是根据当前的解码状态计算与输入各时刻隐藏状态的“相关性”(或“对齐”分数),然后用这些分数作为权重,对所有编码器输出进行加权求和,形成一个动态的上下文向量。
      这样,模型能够“关注”输入中与当前输出最相关的部分,从而大大提高了长序列翻译等任务的效果。
  3. Transformer 架构
    Transformer 是在 2017 年提出的一种全新的 Encoder–Decoder 架构,其核心思想是完全依赖注意力机制:

    • 自注意力(Self-Attention):在编码器内部,每个词的表示可以直接和同一序列中其他词的表示进行交互,不依赖传统的序列化的递归结构;解码器内部也使用了带有因果掩码(Causal Masking)的自注意力,确保生成时只能利用“过去”的信息。
    • 交叉注意力(Cross-Attention):解码器的每一步会“关注”编码器输出的各个位置,从而获得与当前生成内容相关的输入信息。
    • Transformer 通过多头注意力机制(Multi-Head Attention)允许模型从不同的“角度”捕捉信息,同时利用并行化计算,大大提高了训练效率和建模能力。

总结来说:

  • Seq2Seq 是一个任务范式,Encoder–Decoder 是实现这种任务的基本架构;
  • Attention 机制是为了解决传统 Encoder–Decoder 模型固定向量传递信息不足的问题而提出的增强方法,使得解码器可以动态地选择输入信息;
  • Transformer 则是在此基础上发展出的全新架构,它完全依赖注意力机制(包括自注意力和交叉注意力),取代了传统的递归或卷积结构,因而具备更强的并行计算能力和更好的长距离依赖建模能力。

这种发展脉络体现了从最初的序列映射(Seq2Seq、Encoder–Decoder),再到利用 Attention 改进信息传递,最终到用 Transformer 架构构建大规模、并行高效的模型的过程。

http://www.dtcms.com/a/20161.html

相关文章:

  • 数据结构------单向链表。
  • 从Sora到有言:3D视频生成技术的突破与应用
  • Docker中安装MySql方法
  • springboot和vue项目中加入支付宝沙盒
  • Pytest自动化测试框架关联/参数化实战
  • SQL Server 导入Excel数据
  • 基于单片机的常规肺活量SVC简单计算
  • LeetCode 热题 100
  • Synchronized 原理
  • DeepSeek R1完全本地部署实战教程01-课程大纲
  • 【Java 面试 八股文】Spring Cloud 篇
  • 鸿蒙中,UIAbility组件启动模式(3种分别是Singleton(单实例模式)Multiton(多实例模式)Specified(指定实例模式))
  • 如何学习Elasticsearch(ES):从入门到精通的完整指南
  • Java短信验证功能简单使用
  • vscode/cursor+godot C#中使用socketIO
  • SpringMVC新版本踩坑[已解决]
  • AUGUST的深度学习笔记(四,现代循环神经网络与注意力机制)
  • $符(前端)
  • 神经网络常见激活函数 9-CELU函数
  • CAS单点登录(第7版)10.多因素身份验证
  • 02.01、移除重复节点
  • Python关于类的一个坑点
  • 【Film Shot】Shot transition detection
  • Dify:修改环境变量并通过 Docker Compose 复用现有容器
  • 新建github操作
  • 【前端进阶】「全面优化前端开发流程」:利用规范化与自动化工具实现高效构建、部署与团队协作
  • Retrieval-Augmented Generation for LargeLanguage Models: A Survey
  • 用C语言解决逻辑推理问题:找出谋杀案凶手
  • C++游戏开发
  • 关于DispatchTime和DispatchWallTime