当前位置：首页 > wzjs >正文

哪个网站可以做网红百度搜索高级搜索

wzjs 2025/7/19 21:28:56

哪个网站可以做网红,百度搜索高级搜索,做网站页面文件,商业空间设计案例网站一、我们先来回忆一下在transformer中KV在哪里出现过，都有什么作用？ α的计算过程： 这里引入三个向量： 图中的q为Query，用来匹配key值图中的k为key,用来被Query匹配图中的Value，是用来被进行加权平均的由…

一、我们先来回忆一下在transformer中KV在哪里出现过，都有什么作用？

α的计算过程：

这里引入三个向量：

图中的q为Query，用来匹配key值

图中的k为key,用来被Query匹配

图中的Value，是用来被进行加权平均的

由这一步我们知道α就是K与Q的匹配程度，匹配程度越高则权重越大。

Wq、Wk、Wv这三个参数矩阵都需要从训练数据中学习

二、为什么要使用KV缓存

使用KV缓存是为减少生成token时候的矩阵运算。

因为在transformer中文本是逐个token生成的，每次新的预测会基于之前生成的所有token的上下文信息，这种对顺序数据的依赖会减慢生成过程，因为每次预测下一个token都需要重新处理序列中所有之前的token。

比说我们要预测第100个token，那么模型必须使用前面99个token的信息，这就需要对这些token做矩阵运算，而这个矩阵运算是非常耗时的。所以KV缓存就是为了减少这种耗时的矩阵运算，在推理过程中会把键和值放在缓存中，这样模型就可以在后续生成token的时候，直接访问缓存，而不需要重新计算。

三、KV缓存具体是怎么实现的？

这两张图分别是有缓存和没有缓存的情况

因为是第一个token，所以有没有缓存计算过程没有差别

接下来到第二个token时，可以看到紫色标出的就是缓存下来的key和value，在没有缓存的情况下KV都要重新计算。如果做了缓存就只需要把历史的KV拿出来，同时只计算最新的那个token的KV再拼接成一个大矩阵就行了。

对比一下，有缓存的计算量明显减少了一半

那后面的token一样，每次历史计算过的键和值就不用重新计算了，这样就极大减少了self attention 的计算量，从序列长度的二次方直接变成了线性

http://www.dtcms.com/wzjs/16018.html

相关文章：

做seo排名好的公司北京关键词优化平台

会昌县城乡规划建设局网站seo网络优化专员是什么意思

网站开发公司上谷歌网站优化

做的网站怎才能被别人访问到网站快速优化排名推荐

网站建设的维护工作有哪些微信营销方法

建设政府网站多语种版本的意义seoul什么意思

网站备案包括空间内容吗陕西seo推广

电子商务网站建设基本组成西安百度爱采购推广

新增网站推广摘抄一小段新闻

wordpress插件悬浮seo分析师招聘

平顶山城市建设局网站廊坊关键词排名优化

网站上的中英文切换是怎么做的成都网站设计

主页网站模板一键制作单页网站

流量网站怎么做百度指数搜索热度

seo搜索引擎优化与推广太原seo顾问

网站开发wbs模板建一个企业网站多少钱

做卡盟网站教程网络销售市场推广

网购网站有哪些网络营销推广方式都有哪些

求个网站填空题网上销售平台怎么做

国家企业信用信息公示网查询系统seo推广软件下载

有做模仿易企秀网站吗海口做网站的公司

学院网站建设服务宗旨如何软件网站优化公司

有做电动车修车的网站吗天津做网站的网络公司

mooc 网站建设情况百度应用中心

洛阳微网站建设网络营销工程师是做什么的

网页设计十大排名惠州短视频seo

巴中汽车网站建设搜索引擎营销的主要方法包括

网站开发员纵向发展平台宣传推广方案

烟台网络公司哪家好佛山快速排名seo

做购物网站能赚钱吗爱站网爱情电影网