当前位置: 首页 > news >正文

seq2seq

理解 transformer 中的 encoder + decoder

  • 详细的 transformer 教程见:【极速版 – 大模型入门到进阶】Transformer

文章目录

    • 🌊 Encoder: 给一排向量输出另外一排向量
    • 🌊 Encoder vs. Decoder: multi-head attention vs. masked multi-head attention
    • 🌊 Decoder: Cross attention



🌊 Encoder: 给一排向量输出另外一排向量

🌊 Encoder vs. Decoder: multi-head attention vs. masked multi-head attention

  • 从下图可以看出,除了灰色遮住的区域, encoder 和 decoder 结构基本完全相同,除了在 decoder 中: multi-head attention 变为了 masked multi-head attention
  • masked multi-head attention: 之和自己前面的做 attention

🌊 Decoder: Cross attention

  • 另外,还差一部分就是 – cross attention
http://www.dtcms.com/a/104634.html

相关文章:

  • USB转串口数据抓包--Bus hound
  • 人工智能之数学基础:初等反射阵
  • C# Winform 入门(1)之跨线程调用,程序说话
  • 敏捷开发10:精益软件开发和看板kanban开发方法的区别是什么
  • Windows 下的多功能汉字笔顺学习与字帖生成软件
  • 三维重构 优质视频
  • 【TS学习】(15)分布式条件特性
  • RoboOS与RoboBrain:引领具身智能新时代的跨本体协作框架
  • SpringCloud概述
  • JMeter脚本录制(火狐)
  • 【多线程】线程池
  • 【开发问题记录】Docker Hub 执行 docker pull命令,拉取镜像失败/sudo docker run hello-world报错
  • 爬虫获取1688关键字搜索接口的实战指南
  • PyTorch量化进阶教程:第二章 Transformer 理论详解
  • [GESP202503 C++六级题解]:P11962:树上漫步
  • Docker学习--容器生命周期管理相关命令--docker rm 命令
  • 【word】导出批注具体到某段引用
  • 【一起来学kubernetes】31、Helm使用详解
  • Redis 02
  • 深入C++栈:从STL到底层实现的全面解析
  • TCP 三次握手与四次挥手深度解析(面试高频)
  • 百度热力图数据获取,原理,处理及论文应用25
  • SEO长尾关键词优化实战策略
  • webpack和vite的区别是什么
  • NAT穿越
  • Ollama+open-webui搭建私有本地大模型详细教程
  • HashMap 在 JDK 1.7 和 JDK 1.8 有什么区别
  • EasyExcel导出自动回显中文,读取自动转换码值(基于全局转换器与自定义注解)
  • 基于SpringBoot的高校学术交流平台
  • FPGA学习(三)——数码管实现四位分秒计数器