当前位置: 首页 > wzjs >正文

丽水房产网站建设中国最新军事新闻

丽水房产网站建设,中国最新军事新闻,包装设计网站设计平台,广州黄埔做网站的公司文章目录 一、Transformer结构解析二、ViT图像分类2.1 patch_embedding2.2 cls token2.3 Position Embedding2.4 encoder2.5 Architecture2.6 Transformer Block2.7 Attention Block 三、注意力的可视化四、爱因斯坦标示法4.1 Einops 五、作业 一、Transformer结构解析 对于enc…

文章目录

  • 一、Transformer结构解析
  • 二、ViT图像分类
    • 2.1 patch_embedding
    • 2.2 cls token
    • 2.3 Position Embedding
    • 2.4 encoder
    • 2.5 Architecture
    • 2.6 Transformer Block
    • 2.7 Attention Block
  • 三、注意力的可视化
  • 四、爱因斯坦标示法
    • 4.1 Einops
  • 五、作业

一、Transformer结构解析

在这里插入图片描述
对于encoder中就是首先标定位置、多头自注意力、归一化、激活函数、FFN-全链接层-MLP

decoder:不做过多说明
在这里插入图片描述
CNN和Transformer,如果选择Transformer的原因就是学习能力更强,但是参数量更大,需要的数据也更多。PCA就是降维

二、ViT图像分类

在这里插入图片描述
embedding和NLP里面的token是一样的。都是打散之后进行重新训练。
首先确定class token设置为头,之后就是加上patch的位置嵌入

2.1 patch_embedding

在这里插入图片描述
就是进行裁剪
在这里插入图片描述
之后就是从768(16163)降维到128

在这里插入图片描述
上下两个做的是同一件事情(卷积操作是可以代替embedding)
在这里插入图片描述
输出都是[1,256,128]:256是token的训练的长度,128就是特征长度

在256上添加1个维度(添加头)变成257

2.2 cls token

在这里插入图片描述
1,1,128,True(梯度打开)
cat就是拼接

2.3 Position Embedding

加入头之后,就是把位置进行嵌入
在这里插入图片描述
在这里插入图片描述
model_dim就是模型的维度,这里为128

2.4 encoder

在这里插入图片描述

多头注意力,这里设置头为8,也就是128个维度,平均分配给这8个头
定义3个层,即会经过3此encoder_layer

下面的10,就是分类成10个,这10个也就是概率,之后选取概率的最大的分类

2.5 Architecture

定义模型


在这里插入图片描述

2.6 Transformer Block

在这里插入图片描述
layer的核心组件就是attention
之后就是定义两个线性层,也就是FNN,原理是先膨胀再收缩
之后就是归一化层还有就是残差的设计
每次调用线性层之后都需要使用一次激活函数,之后再进行下一次的线性层
在这里插入图片描述
多头注意力
在这里插入图片描述
关于这个自注意力中,q,k,v是三个部分
在自注意力机制中,Q(Query)、K(Key)和V(Value)是核心组成部分,它们共同工作以实现对序列中信息的动态聚焦。
Query向量代表当前正在处理的token或位置,它表示模型需要“查询”的信息。在自注意力机制中,Query用于与所有的Key进行比较,以确定每个Key与当前token的相关性。这个比较的结果决定了Value的加权和,从而生成当前token的输出。

Key向量代表序列中每个token的唯一标识,用于与Query进行比较。Key向量用于计算与Query的相似度或匹配程度,这个相似度得分决定了相应Value在最终输出中的权重。

Value向量包含序列中每个token的实际内容或特征,它对生成当前token的输出有贡献。Value向量根据与Query的相似度得分(由Key确定)被加权求和,生成当前token的输出。

在自回归推理过程中,模型一次生成一个token,并且每个新token都会基于之前所有token的信息。因此,对于每个新生成的token,Q需要重新计算,因为它依赖于当前token的信息,而K和V可以被缓存(即KV Cache),因为它们代表之前已经生成的token的信息,这些信息在生成后续token时不需要重新计算。Q代表了当前token的查询需求,而K和V则提供了序列中每个token的标识和内容,使得模型能够根据当前token的需求加权组合之前的信息,生成连贯和相关的输出。

q*k 做一个softmax拿到注意力分数,把token之间的分数,都乘以v,就得到缓和之后的token

2.7 Attention Block

在这里插入图片描述
在这里插入图片描述

三、注意力的可视化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

四、爱因斯坦标示法

4.1 Einops

在这里插入图片描述
重排用的多
在这里插入图片描述

五、作业

在这里插入图片描述

http://www.dtcms.com/wzjs/130442.html

相关文章:

  • wordpress一键采集文章seo数据分析哪些方面
  • 网站建设接活做推广的软件有哪些
  • 沈阳市城市建设管理局网站2345浏览器导航页
  • 做互动电影的网站外贸网站推广
  • 疫情最新数据消息浙江长沙优化网站厂家
  • 用电脑怎么做原创视频网站福州seo网站排名
  • 佛山有那几家做网站企业关键词优化价格
  • 上海网站建设技术指导公司营销策划书格式及范文
  • 网站设计制作服务热线yoast seo教程
  • 会员网站开发淘宝关键词指数
  • 怎么用 c文件做网站模板建站
  • 中文网站建设技术解决方案怎样和政府交换友链
  • 学校网站建设团队台州网络推广
  • 做网站第三方友链交换网站
  • 给人做赌博网站犯法嘛网页自助建站
  • 网站漏洞 在线扫描商丘网络推广哪家好
  • 增城做网站做销售怎样去寻找客户
  • 互联网设计师是干什么的太原seo公司
  • 西安建设工程网上交易平台最好的seo外包
  • 平面设计公司简介杭州排名优化公司电话
  • 怎么选择营销型网站建设公司爱站网站长seo综合查询工具
  • 佛山顺德网站制作公司哪家好平台网站开发公司
  • 做网站的上市公司加盟培训机构
  • 游戏网站建设方案书短视频怎么赚钱
  • 销售网站建设常遇到的问题阳江网站建设
  • 郑州大学现代远程教育 《网页设计与网站建设》个人主页注册安全工程师
  • wp做图网站营销的三个基本概念是什么
  • 句容市建设局网站土地挂牌公示丽水百度seo
  • 区块链网站用vue.js做怎么样整合营销案例
  • 奇迹建站模板seo的搜索排名影响因素主要有