当前位置: 首页 > wzjs >正文

c 网站开发 环境配置win7运行速度提高90%

c 网站开发 环境配置,win7运行速度提高90%,网站欢迎页面模板下载,武汉家装十大排名本文以自注意机制为例,输入一个4*4的矩阵 如下: input_datatorch.tensor([[1,2,3,4], [5,6,7,8], [9,10,11,12], [13,14,15,16] ],dtypetorch.float) 得到Q和K的转置如下。 此时,计算QK^T ,得到如下结果 第一行第一个位置就是第一条样本和第…

本文以自注意机制为例,输入一个4*4的矩阵
如下:

input_data=torch.tensor([[1,2,3,4], [5,6,7,8], [9,10,11,12], [13,14,15,16] ],dtype=torch.float)

得到Q和K的转置如下。

此时,计算Q@K^T ,得到如下结果
第一行第一个位置就是第一条样本和第一条样本对应特征相乘再求和的结果
第一行第二列,就是第一条样本和第二条样本对应特征位置相乘再求和的结果
以此类推...
也就是每条样本分别于其它样本做点乘操作,这个过程的结果被叫做外积。
请注意,这个过程并不是叉乘,叉乘一般用于向量。

最后我们使用该结果做softmax操作,我们将得到如下矩阵。观察下面的矩阵,我们发现,在最后一列几乎都是1,在其它列无限接近0。
但是这并不是说每个样本的最后一个特征得分最高,而是表示,在单个特征位置,其每个样本的概率分布。
所以,如下矩阵表示,在每个特征维度上,最后一条样本的概率分布最高。

所以,我们使用注意力得分和V做点积操作,att @ V  ,我们将得到如下输出。

我们会发现,每一行都变成了[13,14,15,16]
这不就是最后一条样本的数值吗?

所以这个过程发生了什么呢?在这个过程中,完成注意力计算后,由于在每个特征维度上,都是最后一条样本的概率分布最高,所以每条样本的每个特征都变成的最后一条样本的值。
但是,实际上并不都这么夸张,因为在实际深度学习中,我们会将样本归一化,使得每条样本的特征值都在0-1区间,这样就不会太受到大值样本的影响。
比如,我们进行如下归一化,将输入数据*0.01。

B=B*0.01
得到如下输出,我们会发现,最后注意力结果就不会都是最后一条样本的值了,只不过呢,最后一条样本的值占据更多数。

http://www.dtcms.com/wzjs/341705.html

相关文章:

  • 2023热点新闻事件seo优化招聘
  • 如何判断网页是静态还是动态佛山seo教程
  • 南昌seo锐创湖南正规关键词优化
  • 河东做网站的公司互联网营销做什么
  • 济南网站建设工资线上销售水果营销方案
  • 一个专门做澳洲直邮的网站搜索引擎营销分类
  • 网站冲突足球比赛统计数据
  • 深圳市网络seo推广价格如何优化网站排名
  • 与女鬼做的网站html制作网页代码
  • 南昌县住房和城乡建设局网站成都新闻最新消息
  • 如何做cad的模板下载网站免费b2b网站大全免费
  • 兰州建网站微信拓客的最新方法
  • 百度开户seo监控
  • 三杰网站建设如何在百度做免费推广产品
  • 海南省做购房合同网站石家庄seo网络推广
  • 什么样的网站可以做站内站网站排名在线优化工具
  • 香港疫情最新数据需要优化的地方
  • 网站建设与管理找工作网络优化大师
  • 营销型企业网站建设的基本原则是百度网站首页
  • 邢台企业网站制作建设百度推广网站
  • 网站建设预算申请seo免费优化
  • seo两个域名一个网站有影响哈尔滨seo优化培训
  • ssh精品课程网站开发网推拉新app推广平台
  • 室内设计和网站建设哪个前景好怎么创建个人网站
  • wordpress主题个人云盘seo扣费系统
  • 公司做网站那家好市场调研一般怎么做
  • 为什么用html5做网站seo推广知识
  • 全国做网站的海外推广方案
  • 北京南站到北京站怎么走成都seo优化推广
  • 成都有做公司网站的公司吗网络推广引流是做什么的