当前位置: 首页 > wzjs >正文

优化一个网站多少钱沃尔玛超市

优化一个网站多少钱,沃尔玛超市,代码添加在网站的什么位置,上海专业做网站推广的公司建议先阅读我之前的博客,掌握一定的自然语言处理前置知识后再阅读本文,链接如下: 带你从入门到精通——自然语言处理(一. 文本的基本预处理方法和张量表示)-CSDN博客 带你从入门到精通——自然语言处理(二…

建议先阅读我之前的博客,掌握一定的自然语言处理前置知识后再阅读本文,链接如下:

带你从入门到精通——自然语言处理(一. 文本的基本预处理方法和张量表示)-CSDN博客

带你从入门到精通——自然语言处理(二. 文本数据分析、特征处理和数据增强)-CSDN博客

带你从入门到精通——自然语言处理(三. RNN扩展和LSTM)-CSDN博客

带你从入门到精通——自然语言处理(四. GRU和seq2seq模型)-CSDN博客

目录

五. 自注意力机制和transformer的输入部分

5.1 自注意力机制

5.2 Transformer整体架构

5.3 输入部分

5.3.1 输入部分整体架构

5.3.2 嵌入层

5.3.2 位置编码器


五. 自注意力机制和transformer的输入部分

        Transformer模型于2017年在Google的论文《Attention is All You Need》中首次被提出,transformer是一种基于自注意力机制(Self-Attention)seq2seq架构的深度学习模型。

5.1 自注意力机制

        传统的注意力机制中的Q、K、V向量三者是不同源的,通常Q向量来自解码器,而K、V向量来自编码器,这种注意力机制被称为一般注意力机制或者交叉注意力机制,而自注意力机制要求Q、K、V向量三者同源,即三者都来自编码器或者解码器。

        最早的自注意力机制的引入是应用到LSTM模型中的,LSTM模型没有编码器和解码器的概念,因此Q、K、V向量三者默认是同源的,为了方便这里使用RNN模型代替LSTM模型进行描述,其基本思想是一致的。

        首先初始化RNN模型的隐藏状态h0以及上下文向量c0(通常使用全0张量来进行初始化),传统的RNN模型使用隐藏状态h0和当前时间步的输入x来更新隐藏状态,但带有自注意力的RNN模型则使用上下文向量c0和当前时间步的输入x来更新隐藏状态,此后,使用上一个时间步的隐藏状态作为Q向量,此前所有时间步的上下文向量作为K向量,依次计算注意力分数(通常忽略初始的全0上下文向量c0,注意力分数的计算可以使用加性注意力、点积注意力等等),随后对所有注意力分数使用softmax函数进行归一化,并使用归一化后的注意力分数对所有V向量(V向量也为所有时间步的上下文向量,即K向量=V向量)做加权平均得到新的上下文向量,RNN模型使用这一新的上下文向量以及当前时间步的输入继续更新隐藏状态,依次往复。

        带有自注意力的RNN模型的架构如下:

5.2 Transformer整体架构

        Transformer整体架构图如下:

        Transformer模型可以分为四个部分:输入部分、编码器部分、解码器部分、输出部分,后文会详细介绍各个部分。

        Transformer模型主要有如下两个优势:

        并行计算:与传统的RNN及其变体不同,transformer模型使用自注意力机制并摒弃了序列化的计算过程,允许模型并行处理整个输入序列,有着更高的计算效率和更强的性能。

        捕捉长距离依赖:自注意力机制能够直接计算输入序列中任意两个元素之间的关系,从而更好地捕捉长距离依赖,缓解长程依赖问题。

5.3 输入部分

5.3.1 输入部分整体架构

        Transfomer输入部分包含:编码器源文本的嵌入层以及位置编码器、解码器目标文本的嵌入层以及位置编码器,即下图部分:

        Transformer模型的最终输入为:

        上述公式中的input_embedding是指输入文本每个token经过Embedding层后得到的低维稠密词向量,而positional_encoding则是输入文本中每个token的位置编码向量,两个向量有着相同的长度(在原论文中向量长度为512)。

5.3.2 嵌入层

        嵌入层(Embedding Layer)的作用是将输入文本中的每个token转换为一个固定长度的低维稠密词向量,便于模型更好地捕捉到词汇的语义信息和语法信息。

        嵌入层的代码实现如下:

class MyEmbedding(nn.Module):def __init__(self, vocab_size, embedding_size):super().__init__()self.vocab_size = vocab_sizeself.embedding_size = embedding_sizeself.ebd = nn.Embedding(vocab_size, embedding_size)def forward(self, x):# 扩大embedding后的词向量值return self.ebd(x) * math.sqrt(self.embedding_size)if __name__ == '__main__':ebd = MyEmbedding(5, 3)t = torch.randint(0, 5, (4,))print(ebd(t))'''
tensor([[-0.4648, -0.7602,  1.1441],[ 2.1027,  0.5997,  0.6691],[-0.6455,  0.0878,  2.3561],[-1.0119,  0.5721, -0.9876]], grad_fn=<MulBackward0>)'''

5.3.2 位置编码器

        RNN模型是依次输入各个token并进行编码,因此RNN模型能够直接感知输入序列中各个token之间的位置关系,而在transformer模型中,对于输入序列是并行进行编码的,因此它无法直接感知输入序列中各个token的位置关系,所以transformer中引入了位置编码器(Positional Encoding),位置编码器能够为embedding后的词向量引入该词在输入序列中位置信息。

        位置编码器能够将各个token在输入序列中的位置信息转换为一组向量,这些向量会与embedding后的词向量相加,在transformer中,位置编码的公式如下:

        上式中pos是token在输入序列中的实际位置(例如第1个token为0,第2个token为1,以此类推),i是词向量长度的下标索引,是词向量的长度,transformer中的位置编码方式属于绝对位置编码。

        因此pos=t时,该token的位置编码向量可以表示为:

        上述表达式中角频率w的取值为:,位置编码向量中的不同下标索引都对应了了一个不同的正余弦波。

        Transformer中的位置编码方法有以下三个特点:

        1. 每个token的位置编码向量的下标索引越大,其编码值所对应的sin和cos函数的角频率越小,这一特点保证了每个token的位置编码向量唯一。

        2. 位置编码向量的值是有界且连续的,这也是正余弦函数的特性,这一特点提高了模型的泛化能力,使模型能够更好地处理长度和训练数据不一致的新数据。

        3. 不同的位置编码向量可以通过线性变换得到,即有:,这里的T表示一个线性变换矩阵,具体的表达式如下:

        基于矩阵乘法和如下的三角函数的两角和公式,可以即可推导出上述表达式。

        上述表达式在对角线位置的各个分块矩阵,例如:,也被称为旋转矩阵,该旋转矩阵的几何意义是对处于二维空间中的一个向量绕原点顺时针旋转度,这一特点使得位置编码向量不仅能表示一个token的绝对位置,还可以表示该token与其他token的相对位置。

        位置编码器的代码实现如下

class PositionalEncoding(nn.Module):def __init__(self, embedding_size, dropout_p=0.1, max_len=5000):super().__init__()self.dropout = nn.Dropout(dropout_p)# pe.shape = (max_len, embedding_size)pe = torch.zeros(max_len, embedding_size)# pos.shape = (max_len, 1)pos = torch.arange(0, max_len).unsqueeze(1)# idx.shape = (embedding_size // 2,)idx = torch.arange(0, embedding_size, 2, dtype=torch.float32)# 利用广播机制进行计算pe[:, ::2] = torch.sin(pos / (10000 ** (idx / embedding_size)))pe[:, 1::2] = torch.cos(pos / (10000 ** (idx / embedding_size)))# self.register_buffer用于将一个张量注册为模型的缓冲区(buffer)# 缓冲区中的数据和模型的参数类似,都会被保存到模型的状态字典中# 缓冲区中的数据不被视为可训练的参数,即不会在优化器更新模型参数时被更新。self.register_buffer('pe', pe)def forward(self, x):x = x + self.pe[:x.size(1)]return self.dropout(x)if __name__ == '__main__':# embedding_size必须为偶数ebd = MyEmbedding(5, 8)pe = PositionalEncoding(8)t = torch.randint(0, 5, (2, 4))print(pe(ebd(t)).shape)# torch.Size([2, 4, 8])

文章转载自:

http://gJjjWCcQ.tntqr.cn
http://1YwCHTLa.tntqr.cn
http://gqifpqUg.tntqr.cn
http://H53QKfpN.tntqr.cn
http://2zXPl9kL.tntqr.cn
http://BWRrltrA.tntqr.cn
http://ZauACupI.tntqr.cn
http://hQTCv5kI.tntqr.cn
http://IopRyj4R.tntqr.cn
http://zI9MpF3e.tntqr.cn
http://AHwg5Ok7.tntqr.cn
http://hwbTEfYD.tntqr.cn
http://bF2YATgk.tntqr.cn
http://9iHu8XNe.tntqr.cn
http://SFLczNUO.tntqr.cn
http://OSOIH9SE.tntqr.cn
http://usVnFdTw.tntqr.cn
http://ZQfeJI9S.tntqr.cn
http://CkR7aqZu.tntqr.cn
http://is0RPTBm.tntqr.cn
http://N9GB22ht.tntqr.cn
http://p24zNYOt.tntqr.cn
http://NvAfDZyp.tntqr.cn
http://QNSA6Z5y.tntqr.cn
http://3WebvRjP.tntqr.cn
http://PRGnI0Lx.tntqr.cn
http://O9lb07L9.tntqr.cn
http://bO8WEPRC.tntqr.cn
http://Lo19IdYR.tntqr.cn
http://VtPsmq58.tntqr.cn
http://www.dtcms.com/wzjs/731808.html

相关文章:

  • 怎么挑选网站建设公司公司网站数据分析
  • 400电话网络推广微信网站郑州seo费用
  • 做一个彩票网站需要怎么做专做美妆的视频网站
  • 软文范例大全800百度seo排名培训
  • 免费做兼职的网站有吗博客 wordpress主题
  • 茶叶网站建设要求济南房产信息网官网
  • 怎么在凡科做自己网站网上做衣服的网站有哪些
  • 后台查看网站容量网站备案号显示红色
  • 台州市网站建设做网站简介
  • 中交建设招标有限公司网站济南标场馆建设有新进展
  • 做a动漫视频在线观看网站上海网站公司
  • 网页设计教程孟宪宁课后题答案seo网站优化专员
  • 现在学网站开发网站建设优化石家庄
  • 寿光专业做网站安卓上搭建wordpress
  • 电脑网站建设规划制作图片视频的软件有哪些
  • 仪器网站模版谁做违法网站
  • 网站关键字代码sns社交网站.net源码
  • php企业网站模板免费下载当今做那些网站能致富
  • 打电话叫人做网站wordpress 投稿 图片
  • dw怎么做购物网站网站推广一般在哪个网做
  • 电商网站seo优化目标分解用flash做的经典网站
  • iis2008如何做网站建设专业网站运营团队
  • 数据库网站建设多少钱wordpress模板转为emlog
  • 一个网站有几个域名路北网站制作
  • 你知道的在线视频观看的vue做网站如何优化seo
  • 企业网站建设的一般要素包括6建网站要大约多少钱
  • 用html5做的音乐网站wordpress背景图像
  • 哪个网站上做ppt比较好看网站建设更新
  • 网站中的ppt链接怎么做广元城乡建设部网站首页
  • 网站自适应 如何做杭州互联网大厂