当前位置: 首页 > news >正文

人工智能学习:Transformer结构(编码器及其掩码张量)

一、编码器介绍

由N个编码器层堆叠而成,每个编码器层由两个子层连接结构组成。

第一个子层连接结构包括一个多头自注意力子层和一个残差连接以及规范化层(层归一化)

第二个子层连接结构包括一个前馈全连接子层和一个残差连接以及规范化层(层归一化)

二、掩码张量

1、掩码张量介绍

        掩码张量(Mask Tensor)是一种用于控制模型对输入数据的访问或处理方式的工具。它在深度学习中广泛应用,尤其是在处理变长序列(如自然语言处理中的句子)或需要忽略某些数据时。掩码张量通常是一个二进制张量(值为0或1)或下三角矩阵,用于指示哪些位置是有效的,哪些位置是无效的(需要被忽略)。

        掩代表遮掩,码就是我们张量中的数值,它的尺寸不定,里面一般只有1和0的元素,代表位置被遮掩或者不被遮掩,至于是0位置被遮掩还是1位置被遮掩可以自定义,因此它的作用就是让另外一个张量中的一些数值被遮掩,也可以说被替换, 它的表现形式是一个张量。

2、掩码张量类型

Transformer 中常用的掩码张量主要分为以下两种类型:

  • Padding Mask(填充掩码)

    • 作用:在处理变长序列时,输入序列通常会被填充到相同的长度(例如,使用 标记)。Padding Mask 用于屏蔽这些填充位置,确保注意力机制不会将注意力分配到这些无效位置。
    • 场景:适用于编码器(Encoder)和解码器(Decoder)的输入序列。
    • 实现:
      • Padding Mask 是一个二进制张量,形状通常为 (batch_size, seq_len) 或 (batch_size, 1, 1, seq_len)(适配多头注意力机制)。
      • 对于填充位置,掩码值为 False 或负无穷大(-inf);对于有效位置,掩码值为 True 或 1。
      • 在注意力计算中,掩码会与注意力权重(scores)相加,填充位置的权重会被设置为负无穷大,softmax 后这些位置的注意力权重接近 0。
  • Look-Ahead Mask(前向掩码/因果掩码)

    • 作用:在解码器(Decoder)中,生成序列时,模型在生成第 \(t​​\)$ 个词时只能依赖前 ​$\(t-1​\) 个词。前向掩码用于屏蔽未来的词,防止模型“作弊”看到后续信息。

文章转载自:

http://oKYXp6Wc.mjbkp.cn
http://sQAlrJ84.mjbkp.cn
http://PJzHLpIz.mjbkp.cn
http://GEAou1we.mjbkp.cn
http://3Oji3o0C.mjbkp.cn
http://cSDkBhmY.mjbkp.cn
http://JXq1bj3c.mjbkp.cn
http://pImjIMvW.mjbkp.cn
http://Odljr7K3.mjbkp.cn
http://yIBxaXU6.mjbkp.cn
http://0bUaZ7Fr.mjbkp.cn
http://q0ujHUo1.mjbkp.cn
http://zQNjtD51.mjbkp.cn
http://9qjhlL8g.mjbkp.cn
http://MHrjdvzn.mjbkp.cn
http://jDXBU9co.mjbkp.cn
http://VxfEGgaN.mjbkp.cn
http://y6L5U7rN.mjbkp.cn
http://BKbqbkOD.mjbkp.cn
http://p6by95AY.mjbkp.cn
http://D0rfuVZN.mjbkp.cn
http://FJGBIDvF.mjbkp.cn
http://42VgCcXU.mjbkp.cn
http://bd7FhNJ9.mjbkp.cn
http://TTQ36T2n.mjbkp.cn
http://bxrsNsbq.mjbkp.cn
http://LkiSis0H.mjbkp.cn
http://J9P6iTSk.mjbkp.cn
http://MNsWVJws.mjbkp.cn
http://SQRHans2.mjbkp.cn
http://www.dtcms.com/a/373584.html

相关文章:

  • ThreeJS骨骼示例
  • 网络工程师软考:网络自动化与可编程网络深度解析
  • 天工开物:耐达讯自动化RS232转ProfiBus网关连接变频器的“重生“术
  • WPF资源字典合并报错
  • DevExpress WPF 中文教程:如何将 WPF 数据网格绑定虚拟数据源?
  • TypeORM 入门教程:@ManyToOne 与 @OneToMany 关系详解
  • 开关电源基础知识
  • C++-RAII
  • nginx反向代理,负载均衡,tomcat的数据流向图篇解析
  • 独立站SEO优化:如何应用移动代理IP提升关键词排名?
  • Linux初始——cgdb
  • 【T2I】Discriminative Probing and Tuning for Text-to-Image Generation
  • Vue: ref、reactive、shallowRef、shallowReactive
  • HarmonyOS 应用开发深度解析:基于 ArkTS 的跨组件状态管理最佳实践
  • 鸿蒙系统下的智能设备故障检测实战:从监控到自愈的全流程实现
  • windows11备份系统盘
  • 小迪web自用笔记31
  • 【前端埋点】纯前端实现 A/B Test
  • Vue3+Cesim ^1.122.0 Home按钮位置自定义;时间轴UTC时间转化为北京时间
  • 第五十五天(SQL注入增删改查HTTP头UAXFFRefererCookie无回显报错复盘)
  • leetcode 1317 将整数转换为两个无零整数的和
  • 高斯数据库(GaussDB)常用命令
  • git 配置本地添加ssh
  • ⸢ 肆 ⸥ ⤳ 默认安全建设方案:c-1.增量风险管控
  • 从零开始学大模型之大模型应用
  • 事务设置和消息分发
  • 人工智能-python-深度学习-神经网络-GoogLeNet
  • 告别进度拖延:19款项目进度管理软件深度测评
  • lesson56:CSS进阶指南:Flex布局、变换渐变与动画实战全解析
  • 【高等数学】第十一章 曲线积分与曲面积分——第四节 对面积的曲面积分