当前位置：首页 > news >正文

Transformer开端

news 2025/8/14 14:41:29

相比于LSTM于GRU的记忆功能Transformer的记忆更为深刻
因为LSTM与GRU极易发生梯度爆炸：具体推导可看这篇文章
LSTM从入门到精通（形象的图解，详细的代码和注释，完美的数学推导过程）_lstm模型-CSDN博客
关于反向传播中梯度爆炸/消失推导非常的完美
Transformer的关键在于引进了自注意力机制（多头注意力机制）

一.自注意力机制

自注意力机制关键在于对上下文的理解

1.1专业术语

自注意力机制通过引入查询向量（Query）、键向量（Key）、值向量（Value）概念来实现序列中各元素之间的信息交互和依赖建模。

Q：Query

表示当前查询者的位置，用来发出问题：“我想知道对我来说谁重要”。
K：Key

表示被查询者的身份，是所有位置给出的“介绍信”或“标签”，告诉别人自己是个啥玩意。
V：Value

表示被查询者实际信息，也就是一旦你决定“关注我了”，我就把这份

解释较为复杂不太推荐，总的来说就是把词向量通过线性变换为三个不同的向量，即下图所示

1.2注意力得分

参考余铉相似度而来，即向量和向量之间的相似度

余铉相似度公式：

注意力得分矩阵：点积计算相似度

分母用来避免数值过大

1.3归一化（对矩阵进行softmax操作）

1.4加权求和【关键】

1.5多头注意力机制【重要】

与CNN中的分组卷积类似
与上述单头注意力相似稍微多一点的就是剪切与拼接

1.6位置编码

ei 即位置编码类似独热编码

二.transformer结构

查看全文

http://www.dtcms.com/a/330236.html

有效涂色问题-二维dp

C++进阶之lambda三种回调方式性能差异(四百二十七)

【13】Transformers快速入门：Transformers 分词器 (Tokenizer) 实战？

哈希表之两个数组的交集（leetcode349）

智能合约开发全流程实战指南

【LeetCode】4. 寻找两个正序数组的中位数

芯伯乐300kHz降压DC/DC转换器XBL4005：4.5V~40V宽电压范围，5A大电流高效输出

三伍微电子GSR2406 IoT FEM 2.4G PA 射频前端模组芯片

深入解析C语言嵌套结构体的内存管理与操作实践

linux_网络层-ip协议

[系统架构设计师]信息安全技术基础知识（三）

SpringBoot3+ Elasticsearch8 Spring-data-Elasticsearch使用

多模态数据集分级方案设计与实现

容器基础镜像制作

ETLCloud批流一体化体现在哪

【Python】Python 函数基本介绍（详细版）

版图设计学习2_掌握PDK中的层定义（工艺文档精读）

DAY39打卡

【运维进阶】管理变量和事实

哥斯拉--安装、使用

graf示教界面技术累积

数据结构摘星题库800题笔记第2章线性表

[TG开发]简单的回声机器人

Linux信号量和信号

淘汰人工巡检！企业配电室无线测温实战：0布线+240点位同步监控

@进程管理工具 - Glances工具详细指南

20250813测试开发岗（凉）面

《探索C++ set与multiset容器：深入有序唯一性集合的实现与应用》

网络存储技术：数据存储架构的演进与全景解析

计算机网络——协议