当前位置: 首页 > wzjs >正文

长沙优化网站哪家公司好重庆网站制作系统

长沙优化网站哪家公司好,重庆网站制作系统,陕西网站建设通报,服装行业网站建设方案文章目录 前言一、Encoder二、Decoder流程流程1 embedding流程2 注意力机制1.注意力机制:multi-self attention2.ADD NORM3.FNN:前向反馈神经网络层流程3 decoder第一个Mluti-head attention第二个Mluti-head attention交叉注意力机制softmax 预测输出单词Transformer 总结一个…

文章目录

  • 前言
  • 一、Encoder
  • 二、Decoder
  • 流程
      • 流程1 embedding
      • 流程2 注意力机制
          • 1.注意力机制:
          • multi-self attention
          • 2.ADD NORM
          • 3.FNN:前向反馈神经网络层
      • 流程3 decoder
        • 第一个Mluti-head attention
        • 第二个Mluti-head attention
          • 交叉注意力机制
        • softmax 预测输出单词
      • Transformer 总结
      • 一个生成翻译任务的训练和验证流程
        • 一:训练阶段:
          • teach forcing
        • 二:验证推理部分
        • 训练与验证的差异
      • teach force 与自回归生成的区别
        • 翻译实例
        • 常见问题回答


前言

transformer是大模型的基础,由encoder和decoder组成,
以翻译任务为例,输入一句话经过transformer生成其翻译内容。
实际应用中,都是由多个encoder和多个decoder构成编码器和解码器

一、Encoder

每个encoder实际上是由两个层构成,第一层是自注意力层,第二层是FFN前馈网络层。编码器的输入会先流经自注意力层,它可以让编码器在对特定词编码时使用输入句子中其他的信息。可以理解成翻译一个词的时候,不仅关注当前词而且还会关注其他词的信息。

二、Decoder

每个解码器有三层,除了self-attention层(mask的)和FNN外,还有Encoder-Decoder Attention层,该层用于帮助解码器关注输入句子的相关部分的。

流程

1.一般我们在处理NLP问题时,都要先把它变成在空间上可以计算的向量,即通过embedding词嵌入的形式。而词嵌入只发生在最底层的编码器中,即最下面的编码器接受的是词嵌入向量embedding,其他编码器接收的是下层编码器的输出。
2.每层encoder会将接收到的向量先经过self-attention再经过FNN后输出给下一个编码器。
在这里插入图片描述
输入的句子的embedding向量表示和每个词位置的向量表示相加得到可以输入进transformer模型中的矩阵X,输出编码信息矩阵C,C大小为(n*d),n是单词个数(5),d是embedding所转换为的维度(如768,512等等)即提取的特征,C后续会用到Decoder中。
3.注:decoder翻译时,依次会根据当前翻译过的单词1~i翻译下一个单词i+1,如下图所示。在使用过程中,翻译到单词i+1的时候需要通过Mask掩盖i+1后面的单词,第i+1个单词时不能用它后面的单词信息,只能用它本身及i+1之前的单词信息,因为后面的信息被mask了,由于decoder的mask-selfattention层会防止解码器在生成时“看到”未来信息,只能利用前面出现过的进行计算。
下图 Decoder 接收了 Encoder 的编码矩阵 C,然后首先输入一个翻译开始符 “”,预测第一个单词 “I”;然后输入翻译开始符 “” 和单词 “I”,预测单词 “have”,以此类推。这是 Transformer 使用时候的大致流程,接下来是里面各个部分的细节。
在这里插入图片描述

流程1 embedding

单词的embedding有经典的方法:word2vec,可以将词转换成空间维度中相同维度的向量。与bert的词embedding相同
Transformer 中使用位置 Embedding 保存单词在序列中的相对或绝对位置
通过训练或利用公式生成,与bert的位置编码方式不同
在这里插入图片描述

二者相加得到transformer的输入矩阵x

流程2 注意力机制

红色圈中的部分为 Multi-Head Attention,是由多个 Self-Attention组成的,可以看到 Encoder block 包含一个 Multi-Head Attention,而 Decoder block 包含两个 Multi-Head Attention (其中有一个用到 Masked)。Multi-Head Attention 上方还包括一个 Add & Norm 层,Add 表示残差连接 (Residual Connection) 用于防止网络退化,Norm 表示 Layer Normalization,用于对每一层的激活值进行归一化。
在这里插入图片描述

1.注意力机制:

在计算的时候需要用到矩阵Q(查询),K(键值),V(值)。在实际中,Self-Attention 接收的是输入(单词的表示向量x组成的矩阵X) 或者上一个 Encoder block 的输出。而Q,K,V正是通过 Self-Attention 的输入进行线性变换得到的。
Q、K、V 是通过输入与可学习的权重矩阵Wq,Wk,Wv计算得到的,模型会根据任务目标(如分类、生成等)调整这些权重,从而提取有用的特征。而权重矩阵(如 Q、K、V 的权重矩阵)的初始化是随机的,但它们的值并不是固定的,而是会在训练过程中通过梯度下降等优化算法不断更新,最终学习到适合任务的值。
Self-Attention 的输入用矩

http://www.dtcms.com/wzjs/221616.html

相关文章:

  • 做网站用dw还是vs网络营销策略案例分析
  • 韩国做色情网站违法不营销课程培训都有哪些
  • 让别人访问自己做的网站搜索点击软件
  • 济南做网站公司关于营销的最新的新闻
  • b2c网站是什么意思百度网盘登陆入口
  • centos7.2做网站nba最新交易汇总实时更新
  • 网络营销推广方案有哪些seo搜索排名
  • 广西哪家公司做网站的web设计一个简单网页
  • 网站建设的常用技术有哪些渠道推广有哪些方式
  • 国家城乡住房建设部网站seo比较好的优化方法
  • 微信怎么做小程序的网站更换服务器对seo的影响
  • 网站策划书网站需求分析网络营销团队
  • 惠州网站设计哪家好seo页面链接优化
  • 做实验室信息的网站网络运营
  • 天津市城乡建设委员会官方网站2023广州疫情最新消息今天
  • 淘宝领券网站怎么做百度指数排名热搜榜
  • 最大的外包公司有哪些seo排名优化课程
  • 哪个网站推荐做挖机事的国家卫生健康委
  • 中国建设教育协会是个什么网站游戏app拉新平台
  • 西安哪家网站建设公司好可以下载新闻视频的网站
  • 做设计赚钱网站有哪些高端网站定制公司
  • 哪个网站做轴承外贸的人比较多软文范文大全
  • 山东网站制作策划教育培训机构官网
  • 漳州网站建设指数搜索
  • 中国做趋势的网站广州头条新闻最新
  • 可以做网站互联网营销师证书有用吗
  • 网站搭建计划书360关键词排名推广
  • 新昌做网站关键词提取
  • 福州晋安区建设局网站做seo推广一年大概的费用
  • 韵达快递小网站怎么做seo网站分析报告