当前位置: 首页 > news >正文

注意力机制概念


1.向量余弦夹角

两个向量相乘,计算点积。

两个向量的方法越接近,余弦夹角趋向于0,点积越大,当两个向量垂直时,点积为0的,当两个项链方向相反时,点积为负数。

在语义空间中,两个词的向量约接近,这两个词就越相似。

2.反向传播

损失函数,衡量模型预测结果与真实标签之间差异,反向传播是基于链式法则的梯度计算算法,用于计算损失函数对网络中每个参数的偏导数,指导参数的优化更新,使损失函数逐步最小化。

3.Transformer

文本输入-》词嵌入E;E+位置编码得到的项链通过学习得到q、k、v。

计算注意力:

Attention(Q,K,V)=softmax(Q,K^{T}/\sqrt{d_{k}})V

\sqrt{d_{k}} 是缩放因子。

第一步: query 和 key 进行相似度计算,得到权值

第二步:将权值通过softmax进行归一化,得到每个key对应value的权重系数

第三步:将权重和 value 进行加权求和

Attention机制的本质是对source中元素的valye进行加权求和,query和key用来计算对应value的权重系数。

图片引自https://zhuanlan.zhihu.com/p/542312699

http://www.dtcms.com/a/203025.html

相关文章:

  • mbed驱动st7789屏幕-硬件选择及连接(1)
  • power BI 倒计时+插件HTML Content,实现更新倒计时看板!
  • Java转Go日记(四十二):错误处理
  • 使用ZYNQ芯片和LVGL框架实现用户高刷新UI设计系列教程(第十三讲)
  • 文献解读:LigandMPNN
  • CHI中ordering的抽象
  • RAG评估标准
  • 人工智能+:职业价值的重构与技能升级
  • 十分钟聊明白DDD领域驱动设计
  • 安装完dockers后就无法联网了,执行sudo nmcli con up Company-WiFi,一直在加载中
  • java基础-异常
  • CompleteableFuture的异步任务编排
  • MySQL的安装及相关操作
  • MySQL 自启动时报错can‘t create PID file: No such file or directory
  • 基于天猫 API 的高效商品详情页实时数据接入方法解析
  • 麒麟系统编译osg —— 扩展篇
  • 系统架构设计(十六):敏感点、权衡点、风险点和非风险点
  • EtherCAT通信协议
  • 题解:AT_abc244_e [ABC244E] King Bombee
  • vue+three.js 五彩烟花效果封装+加载字体
  • Go语言实战:使用 excelize 实现多层复杂Excel表头导出教程
  • idea 插件开发自动发布到 nexus 私服中(脚本实例)
  • 随记1-LLM多轮对话的陷阱
  • LTX-Videov本地部署教程:时空扩散+多尺度渲染,重塑AI视频研究范式
  • 至此(day1-day4)代码详解(ai辅助整理)
  • Python代码加密与发布方案详解
  • 计算机图形学Games101笔记--几何
  • leetcode字符串篇【公共前缀】:14-最长公共前缀
  • NebulaGraph学习笔记-SessionPool之Session not existed
  • 常见高速电路设计与信号完整性核心概念