当前位置: 首页 > news >正文

注意力机制概念


1.向量余弦夹角

两个向量相乘,计算点积。

两个向量的方法越接近,余弦夹角趋向于0,点积越大,当两个向量垂直时,点积为0的,当两个项链方向相反时,点积为负数。

在语义空间中,两个词的向量约接近,这两个词就越相似。

2.反向传播

损失函数,衡量模型预测结果与真实标签之间差异,反向传播是基于链式法则的梯度计算算法,用于计算损失函数对网络中每个参数的偏导数,指导参数的优化更新,使损失函数逐步最小化。

3.Transformer

文本输入-》词嵌入E;E+位置编码得到的项链通过学习得到q、k、v。

计算注意力:

Attention(Q,K,V)=softmax(Q,K^{T}/\sqrt{d_{k}})V

\sqrt{d_{k}} 是缩放因子。

第一步: query 和 key 进行相似度计算,得到权值

第二步:将权值通过softmax进行归一化,得到每个key对应value的权重系数

第三步:将权重和 value 进行加权求和

Attention机制的本质是对source中元素的valye进行加权求和,query和key用来计算对应value的权重系数。

图片引自https://zhuanlan.zhihu.com/p/542312699

相关文章:

  • mbed驱动st7789屏幕-硬件选择及连接(1)
  • power BI 倒计时+插件HTML Content,实现更新倒计时看板!
  • Java转Go日记(四十二):错误处理
  • 使用ZYNQ芯片和LVGL框架实现用户高刷新UI设计系列教程(第十三讲)
  • 文献解读:LigandMPNN
  • CHI中ordering的抽象
  • RAG评估标准
  • 人工智能+:职业价值的重构与技能升级
  • 十分钟聊明白DDD领域驱动设计
  • 安装完dockers后就无法联网了,执行sudo nmcli con up Company-WiFi,一直在加载中
  • java基础-异常
  • CompleteableFuture的异步任务编排
  • MySQL的安装及相关操作
  • MySQL 自启动时报错can‘t create PID file: No such file or directory
  • 基于天猫 API 的高效商品详情页实时数据接入方法解析
  • 麒麟系统编译osg —— 扩展篇
  • 系统架构设计(十六):敏感点、权衡点、风险点和非风险点
  • EtherCAT通信协议
  • 题解:AT_abc244_e [ABC244E] King Bombee
  • vue+three.js 五彩烟花效果封装+加载字体
  • 上海将建设万兆小区、园区及工厂,为模型训练数据的传输提供硬件支持
  • 上海公办小学验证今起开始,下周一和周二分区进行民办摇号
  • 上海博物馆展览进校园,“小先生”传递文物知识
  • 马上评|训斥打骂女儿致死,无暴力应是“管教”底线
  • 特朗普再提“接管”加沙,要将其变为“自由区”
  • “85后”贵阳市政府驻重庆办事处主任吴育材拟任新职