当前位置: 首页 > news >正文

【大语言模型】—— Transformer的QKV及多头注意力机制图解解析

【大语言模型】—— Transformer的QKV及多头注意力机制图解解析

    • 翻译任务
    • 位置编码
    • 注意力机制

来源: Transformer 动画 + 论文 + 白板

翻译任务

当我们用神经网络做翻译任务时,如下
在这里插入图片描述
先用词嵌入的方式把每个词转为对应的词向量,假设维度为6
在这里插入图片描述
如果把每个词直接丢到一个全连接神经网络中,那每个词都没有上下文的信息,且长度只能一一对应

在这里插入图片描述
如果用循环神经网络RNN,又面临串行计算,而且如果句子太长,也会导致长期依赖困难的问题

在这里插入图片描述

位置编码

上述两种方法面临上下文以及词语间相互依赖的问题,因此首先需要引入文本的位置编码

首先我们给每个词一个位置编码,表示这个词出现在整个句子中的位置,把位置编码加入到原来的词向量中,这个词就有了位置信息

在这里插入图片描述

注意力机制

但此时每个词还没有其他词的上下文信息,也就是注意不到其他词的存在。

我们用一个WqW_qWq矩阵,和第一个词向量相乘,得到一个维度不变的Q1Q_1Q1向量

在这里插入图片描述
这里的WqW_qWq矩阵,是可以通过训练过程学习的一组权重值,同理,我们用一个WkW_kWk矩阵和第一个词向量相乘,得到K1K_1K1

在这里插入图片描述
再通过WvW_vWv矩阵得到V1V_1V1

在这里插入图片描述

接着其他的词向量也和相同的WQ,K,VW_{Q,K,V}WQ,K,V矩阵相乘,分别得到自己对应的Q,K,VQ,K,VQ,K,V向量

在这里插入图片描述
在实际的计算机运算中,是通过拼接得到的大矩阵做乘法,得到的就是包含所有词向量的Q,K,VQ,K,VQ,K,V矩阵,在 Transformer 的注意力机制里,每个输入向量(比如一句话中的一个词的向量表示)需要根据上下文来重新获得“加权表示”。这种加权就是通过 Q,K,VQ,K,VQ,K,V来完成的。

现在原来的词向量已经分别通过线性变换,映射成了Q,K,VQ,K,VQ,K,V,维度和原来是一样的

在这里插入图片描述

接下来我们让Q1Q_1Q1K2K_2K2做点积,这表示在第一个词的视角里,第一个词和第二个词的相似度是多少
在这里插入图片描述
同理依次和K3K_3K3做点积,表示和第三个词的相似度,和K4K_4K4做点积,表示和第四个词的相似度
在这里插入图片描述
最后,和自己也做点积,表示和自己的相似度

在这里插入图片描述
得到这些相似度系数之后,分别和VVV向量相乘,再相加得到A1A_1A1,此时这个A1A_1A1就表示在第一个词的视角下,按照和他相似度大小按权重把每个词的词向量都加到了一起,这就把全部上下文信息都包含在第一个词中了,而且是以第一个词的视角观察的

在这里插入图片描述

同理,其他几个词也按照这种方式,那么此时每个词都把其他词的词向量,按照和自己的相似度权重加到了自己的词向量中

在这里插入图片描述
从全局视角来看,现在就是把最初的输入的词向量,经过一番处理,变成了一组新的词向量,但是这组新的词向量每一个都包含了位置信息和其他词上下文信息的一组新的词向量,这就是注意力attention做的事情

在这里插入图片描述
为了提高灵活性,之前我们是每个词计算一组QKVQKVQKV,我们在这个QKVQKVQKV基础上,再经过两个权重矩阵变成两组QKVQKVQKV,给每个词两次学习机会,学习到不同的要计算相似度的QKVQKVQKV,从而增加语言的灵活性,这里的每组QKVQKVQKV称为一个头

在这里插入图片描述

接下来在每个头里的QKVQKVQKV仍然经过刚刚的注意力层的运算得到AAA向量
在这里插入图片描述
然后把两个AAA向量拼接起来,得到和刚刚一样的结构
在这里插入图片描述

这就是多头注意力机制
在这里插入图片描述

http://www.dtcms.com/a/438092.html

相关文章:

  • SYN VISION韩国发布会:获评非小号Alpha,战略合作PrompTale
  • 安徽工程建设造价信息网站html网站开发视频
  • 图书馆自习室|基于SSM的图书馆自习室座位预约小程序设计与实现(源码+数据库+文档)
  • Ollama 使用详解:本地部署大语言模型的指南
  • 手机上哪个网站浙江省嘉兴市建设局网站
  • 秒杀系统崩溃?Redis分片+Sentinel熔断架构设计指南
  • 【开题答辩全过程】以 J2EE技术在在线购物分享应用中的应用为例,包含答辩的问题和答案
  • 【深入理解计算机网络03】计算机网络的分层结构,OSI模型与TCP/IP模型
  • 网站怎么做移动的窗口达州市建设规划网站
  • #计算 c^d mod n
  • AI与现代数据科学的融合
  • Kaggle医学影像识别(二)
  • 第8篇|特殊环境下的设计挑战:把“风机体质”重塑成“台风型、抗寒型、M型与 Class S 定制款”
  • 别让AI成为“技术债加速器”:敏捷设计习惯如何约束智能开发
  • [论文阅读] AI+软件工程 | AI供应链信任革命:TAIBOM如何破解AI系统“可信难题“
  • 【论文阅读】-《Sparse and Imperceivable Adversarial Attacks》
  • SNN论文阅读——In the Blink of an Eye: Event-based Emotion Recognition
  • 焦作做网站最专业的公司访问wordpress时失败
  • K8s学习笔记(十二) volume存储卷
  • 十分钟搭建thinkphp开发框架
  • JVM中的内存区域划分
  • 做网站用小图标在什么网下载电脑如何做网站
  • FFmpeg 全面教程:从安装到高级应用
  • 10月3号
  • QT肝8天15--左侧静态菜单
  • 开源安全工具推荐:afrog- 主要用于 Bug Bounty、Pentest 和 Red Teaming 的安全工具
  • Go中的字符串
  • 为什么要做外贸网站公司邮箱域名是什么
  • 《政企API网关:安全与性能平衡的转型实践》
  • 安卓基础组件026-TabLayout