当前位置: 首页 > news >正文

Transformer开端

  • 相比于LSTM于GRU的记忆功能Transformer的记忆更为深刻
  • 因为LSTM与GRU极易发生梯度爆炸:具体推导可看这篇文章
  • LSTM从入门到精通(形象的图解,详细的代码和注释,完美的数学推导过程)_lstm模型-CSDN博客
  • 关于反向传播中梯度爆炸/消失推导非常的完美
  • Transformer的关键在于引进了自注意力机制(多头注意力机制)

一.自注意力机制

自注意力机制关键在于对上下文的理解

1.1专业术语

自注意力机制通过引入查询向量(Query)键向量(Key)值向量(Value)概念来实现序列中各元素之间的信息交互和依赖建模。

  • Q:Query

    表示当前查询者的位置,用来发出问题:“我想知道对我来说谁重要”。

  • K:Key

    表示被查询者的身份,是所有位置给出的“介绍信”或“标签”,告诉别人自己是个啥玩意。

  • V:Value

    表示被查询者实际信息,也就是一旦你决定“关注我了”,我就把这份

解释较为复杂不太推荐,总的来说就是把词向量通过线性变换为三个不同的向量,即下图所示

1.2注意力得分

参考余铉相似度而来,即向量和向量之间的相似度

余铉相似度公式:

注意力得分矩阵:点积计算相似度

分母用来避免数值过大

1.3归一化(对矩阵进行softmax操作)

1.4加权求和【关键】

1.5多头注意力机制【重要】

  • 与CNN中的分组卷积类似
  • 与上述单头注意力相似稍微多一点的就是剪切与拼接

1.6位置编码

ei 即位置编码类似独热编码

二.transformer结构

http://www.dtcms.com/a/330236.html

相关文章:

  • 有效涂色问题-二维dp
  • C++进阶之lambda三种回调方式性能差异(四百二十七)
  • 【13】Transformers快速入门:Transformers 分词器 (Tokenizer) 实战?
  • 哈希表之两个数组的交集(leetcode349)
  • 智能合约开发全流程实战指南
  • 【LeetCode】4. 寻找两个正序数组的中位数
  • 芯伯乐300kHz降压DC/DC转换器XBL4005:4.5V~40V宽电压范围,5A大电流高效输出
  • 三伍微电子GSR2406 IoT FEM 2.4G PA 射频前端模组芯片
  • 深入解析C语言嵌套结构体的内存管理与操作实践
  • linux_网络层-ip协议
  • [系统架构设计师]信息安全技术基础知识(三)
  • SpringBoot3+ Elasticsearch8 Spring-data-Elasticsearch使用
  • 多模态数据集分级方案设计与实现
  • 容器基础镜像制作
  • ETLCloud批流一体化体现在哪
  • 【Python】Python 函数基本介绍(详细版)​
  • 版图设计学习2_掌握PDK中的层定义(工艺文档精读)
  • DAY39打卡
  • 【运维进阶】管理变量和事实
  • 哥斯拉--安装、使用
  • graf示教界面技术累积
  • 数据结构摘星题库800题笔记 第2章线性表
  • [TG开发]简单的回声机器人
  • Linux信号量和信号
  • 淘汰人工巡检!企业配电室无线测温实战:0布线+240点位同步监控
  • @进程管理工具 - Glances工具详细指南
  • 20250813测试开发岗(凉)面
  • 《探索C++ set与multiset容器:深入有序唯一性集合的实现与应用》
  • 网络存储技术:数据存储架构的演进与全景解析
  • 计算机网络——协议