当前位置: 首页 > news >正文

seq2seq

理解 transformer 中的 encoder + decoder

  • 详细的 transformer 教程见:【极速版 – 大模型入门到进阶】Transformer

文章目录

    • 🌊 Encoder: 给一排向量输出另外一排向量
    • 🌊 Encoder vs. Decoder: multi-head attention vs. masked multi-head attention
    • 🌊 Decoder: Cross attention



🌊 Encoder: 给一排向量输出另外一排向量

🌊 Encoder vs. Decoder: multi-head attention vs. masked multi-head attention

  • 从下图可以看出,除了灰色遮住的区域, encoder 和 decoder 结构基本完全相同,除了在 decoder 中: multi-head attention 变为了 masked multi-head attention
  • masked multi-head attention: 之和自己前面的做 attention

🌊 Decoder: Cross attention

  • 另外,还差一部分就是 – cross attention

相关文章:

  • USB转串口数据抓包--Bus hound
  • 人工智能之数学基础:初等反射阵
  • C# Winform 入门(1)之跨线程调用,程序说话
  • 敏捷开发10:精益软件开发和看板kanban开发方法的区别是什么
  • Windows 下的多功能汉字笔顺学习与字帖生成软件
  • 三维重构 优质视频
  • 【TS学习】(15)分布式条件特性
  • RoboOS与RoboBrain:引领具身智能新时代的跨本体协作框架
  • SpringCloud概述
  • JMeter脚本录制(火狐)
  • 【多线程】线程池
  • 【开发问题记录】Docker Hub 执行 docker pull命令,拉取镜像失败/sudo docker run hello-world报错
  • 爬虫获取1688关键字搜索接口的实战指南
  • PyTorch量化进阶教程:第二章 Transformer 理论详解
  • [GESP202503 C++六级题解]:P11962:树上漫步
  • Docker学习--容器生命周期管理相关命令--docker rm 命令
  • 【word】导出批注具体到某段引用
  • 【一起来学kubernetes】31、Helm使用详解
  • Redis 02
  • 深入C++栈:从STL到底层实现的全面解析
  • 海南乐城管理局原局长贾宁已赴省政协工作,曾从河南跨省任职
  • 澎湃思想周报|《混沌少年时》与青少年社媒禁令;自雇陷阱
  • 古稀之年的设计家吴国欣:重拾水彩,触摸老上海文脉
  • 世界高血压日|专家:高血压患者控制血压同时应注重心率管理
  • 国家防汛抗旱总指挥部对15个重点省份开展汛前实地督导检查
  • 本周看啥|《歌手》今晚全开麦直播,谁能斩获第一名?