当前位置: 首页 > news >正文

transformer bert 多头自注意力

在这里插入图片描述
输入的(a1,a2,a3,a4)是最终嵌入,是一个(512,768)的矩阵;而a1是一个token,尺寸是768
在这里插入图片描述
a1通过wq权重矩阵,经过全连接变换得到查询向量q1;a2通过Wk权重矩阵得到键向量k2;q和k点乘就是值a12,a12就是a2对于a1的注意力值
在这里插入图片描述
依次得到a1,1,a1,2,a1,3,a1,4注意力,都是其他token相对于a1 token的注意力
在这里插入图片描述
此时(a1,1,a1,2,a1,3,a1,4)不是概率分布,需要经过softmax呈概率分布向量(a’1,1,a’1,2,a’1,3,a’1,4),
在这里插入图片描述
此时,再把每个a经过v权重矩阵得到v1,v2,v3,v4向量
在这里插入图片描述

a’1,1×v1+a’1,2×v2+a’1,3×v3+a’1,4×v4=b1向量,b1是个768维向量,是a1的自注意力向量,综合了该token与其他所有tokens之间的关系

之后每个a都这么得到自己的自注意力向量,然后组合成(512,768)

相关文章:

  • element-plus中Autocomplete自动补全输入框组件的使用
  • 【Spring】详细剖析Spring程序
  • 多线程实现批量保存数据
  • PE,ELF,COFF
  • 基于物联网设计的疫苗冷链物流监测系统
  • 【前端知识】前端构建工具webpack的平替vite
  • 【软件测试】--面试
  • 如何用终端运行一个SpringBoot项目
  • SD ComfyUI工作流 一键Q版盲盒手办形象_多关键词切换
  • 星越L_副驾驶屏使用讲解
  • 每日一题之储存晶体
  • 基于GoogleNet深度学习网络和GEI步态能量提取的步态识别算法matlab仿真,数据库采用CASIA库
  • Linux驱动开发实战(四):设备树点RGB灯
  • Cursor 终极使用指南:从零开始走向AI编程
  • 【算法题解答·六】栈队列堆
  • 剑指 Offer II 073. 狒狒吃香蕉
  • 2025-03-13 禅修-错误的做法
  • 大白话如何在 Vue 项目中进行路由懒加载?
  • DexGraspVLA:面向通用灵巧抓取的视觉-语言-动作框架
  • 便利店商品推荐数字大屏:基于python和streamlit
  • 国外汽车配件网站模板/宁波网站制作与推广价格
  • 个人网站建设总结/今天刚刚的最新新闻
  • 个人备案的域名拿来做别的网站/关键seo排名点击软件
  • 建设微网站的特色/百度app安装下载
  • 请多记几个本站域名防止/企业推广软文
  • 绿色电器公司网站psd模板/百度账号24小时人工电话