当前位置: 首页 > wzjs >正文

哪个网站可以做网红百度搜索高级搜索

哪个网站可以做网红,百度搜索高级搜索,做网站页面文件,商业空间设计案例网站一、我们先来回忆一下在transformer中KV在哪里出现过,都有什么作用? α的计算过程: 这里引入三个向量: 图中的q为Query,用来匹配key值 图中的k为key,用来被Query匹配 图中的Value,是用来被进行加权平均的 由…

一、我们先来回忆一下在transformer中KV在哪里出现过,都有什么作用?

α的计算过程:

这里引入三个向量:

图中的q为Query,用来匹配key值

图中的k为key,用来被Query匹配

图中的Value,是用来被进行加权平均的

这一步我们知道α就是K与Q的匹配程度,匹配程度越高则权重越大。

Wq、Wk、Wv这三个参数矩阵都需要从训练数据中学习

二、为什么要使用KV缓存

使用KV缓存是为减少生成token时候的矩阵运算。

        因为在transformer中文本是逐个token生成的,每次新的预测会基于之前生成的所有token的上下文信息,这种对顺序数据的依赖会减慢生成过程,因为每次预测下一个token都需要重新处理序列中所有之前的token。

        比说我们要预测第100个token,那么模型必须使用前面99个token的信息,这就需要对这些token做矩阵运算,而这个矩阵运算是非常耗时的。所以KV缓存就是为了减少这种耗时的矩阵运算,在推理过程中会把键和值放在缓存中,这样模型就可以在后续生成token的时候,直接访问缓存,而不需要重新计算

三、KV缓存具体是怎么实现的?

这两张图分别是有缓存和没有缓存的情况

因为是第一个token,所以有没有缓存计算过程没有差别

      接下来到第二个token时,可以看到紫色标出的就是缓存下来的key和value,在没有缓存的情况下KV都要重新计算。如果做了缓存就只需要把历史的KV拿出来,同时只计算最新的那个token的KV再拼接成一个大矩阵就行了。

对比一下,有缓存的计算量明显减少了一半

那后面的token一样,每次历史计算过的键和值就不用重新计算了,这样就极大减少了self attention 的计算量,从序列长度的二次方直接变成了线性

http://www.dtcms.com/wzjs/16018.html

相关文章:

  • 做seo排名好的公司北京关键词优化平台
  • 会昌县城乡规划建设局网站seo网络优化专员是什么意思
  • 网站开发公司上谷歌网站优化
  • 做的网站怎才能被别人访问到网站快速优化排名推荐
  • 网站建设的维护工作有哪些微信营销方法
  • 建设政府网站多语种版本的意义seoul什么意思
  • 网站备案包括空间内容吗陕西seo推广
  • 电子商务网站建设基本组成西安百度爱采购推广
  • 新增网站推广摘抄一小段新闻
  • wordpress插件 悬浮seo分析师招聘
  • 平顶山城市建设局网站廊坊关键词排名优化
  • 网站上的中英文切换是怎么做的成都网站设计
  • 主页网站模板一键制作单页网站
  • 流量网站怎么做百度指数搜索热度
  • seo搜索引擎优化与推广太原seo顾问
  • 网站开发wbs模板建一个企业网站多少钱
  • 做卡盟网站教程网络销售 市场推广
  • 网购网站有哪些网络营销推广方式都有哪些
  • 求个网站填空题网上销售平台怎么做
  • 国家企业信用信息公示网查询系统seo推广软件下载
  • 有做模仿易企秀网站吗海口做网站的公司
  • 学院网站建设服务宗旨如何软件网站优化公司
  • 有做电动车修车的网站吗天津做网站的网络公司
  • mooc 网站建设情况百度应用中心
  • 洛阳微网站建设网络营销工程师是做什么的
  • 网页设计十大排名惠州短视频seo
  • 巴中汽车网站建设搜索引擎营销的主要方法包括
  • 网站开发员纵向发展平台宣传推广方案
  • 烟台网络公司哪家好佛山快速排名seo
  • 做购物网站能赚钱吗爱站网爱情电影网