当前位置: 首页 > news >正文

深度学习|注意力机制

一、注意力提示

随意:跟随主观意识,也就是指有意识。

注意力机制:考虑“随意线索”,有一个注意力池化层,将会最终选择考虑到“随意线索”的那个值

二、注意力汇聚

这一部分也就是讲第一大点中“注意力汇聚”那个池化层如何实现池化操作。

1.非参注意力池化层

为什么叫“非参”呢?因为这里定义的池化层函数,函数中所用到的数据均来源于之前的变量,不需要学习任何参数,K是一个函数。

这里的query、key、value不懂是什么意思,好像和理解的函数对应不上,李沐没讲

1.1平均池化

这是最简单的池化方案,就是求解平均值,然后映射到value(值)上。

1.2NW核回归

就是K这个函数选取高斯核K(u),然后入代到上面的池化函数中。

2.参数注意力池化层

就是引入了一个可以学习的w作为参数,每次进行迭代。

二、注意力分数

1.基本介绍

就是说池化层的池化函数关键在于如何定义函数a,函数a就是注意力分数,softmax其实就是将其转换到0-1上,都弄成正的小数。

2.函数a的定义方式

2.1可加性的注意力

可加性的注意力,将函数a定义为上面所示的样子,其实就是将key和value合并起来,具体怎么个意思没太懂。 

2.2Scaled Dot-Production Attention

三、自注意力

1.基本含义

将Xi当作key,value,query来提取序列特征。

 2.位置编码

3.位置编码矩阵

这个矩阵P就是计算的出的矩阵X的位置信息编码矩阵。从图中可以看出,其实就是将位置信息加到了矩阵X输入上去。

4.绝对位置信息

对每个样本都给一个独一无二的位置信息,将这个位置信息加到原矩阵信息上去。

 5.相对位置信息

四、Transformer

沐神说:老大的小孩过来看到BERT说,欸这不是芝麻街......

1.架构

2.多头注意力

 

相关文章:

  • 【Java中级】11章、注解、元注解介绍、快速入门,了解java注解的基本使用方式【2】
  • vscode 跳转失败之c_cpp_properties.json解析
  • 【从一个 TypeScript 报错理解 ES6 模块的三种导入方式】
  • 北京自在科技:让万物接入苹果Find My网络的″钥匙匠″
  • sql-labs靶场 less-2
  • PyTorch张量范数计算终极指南:从基础到高阶实战
  • Python: sqlite3.OperationalError: no such table: ***解析
  • 在1panel中安装WebUI
  • 未来杭州:科技与诗意的时空交响曲
  • Linux 学习笔记(4):cd 与 pwd 命令的深度解析与实战应用(期末、期中复习必备)
  • ArcGis Reclassify CDL
  • muduo:运行起来
  • Prometheus采集容器故障排查
  • 从CAD数据到智能计量:Inspire如何借助HOOPS SDK创计量新高度
  • 【C++11】特殊类的设计 单例模式 类型转换
  • 数据库7(数据定义语句,视图,索引)
  • 单缓冲、双缓冲、多缓冲与缓冲池详解
  • STM32学习之ARM内核自带的中断
  • 【AI论文】SynWorld:用于代理行为知识细化的虚拟场景合成
  • 数据结构与算法-数学-(同余,线性同余方程,中国剩余定理,卡特兰数,斯特林数)