当前位置: 首页 > news >正文

多头注意力机制和单注意力头多输出的区别

多头注意力得到的是一个 6×4 维的张量:我们有 6 个输入 token 和 4 个自注意力头,其中每个自注意力头返回一个 1 维输出。之前的自注意力一节也得到了一个 6×4 维的张量。这是因为我们将输出维度设为了 4,而不是 1。既然我们可以就在 SelfAttention 类中调整输出嵌入的大小,那么我们为什么在实践时需要多个注意力头?
增加单自注意力头的输出维度和使用多个注意力头的区别在于模型处理和学习数据的方式。尽管这两种方法都能提升模型表征数据的不同特征或不同方面的能力,但它们的方式却有根本性的差异。例如,多头注意力中的每个注意力头都可以学习关注输入序列的不同部分,捕获数据中的不同方面或关系。这种表征的多样性是多头注意力成功的关键。

参考链接:大模型时代还不理解自注意力(Self-Attention)?这篇文章教你从头写代码实现
此链接还包括关于交叉注意力、因果注意力的讲解

相关文章:

  • 第二章 何谓第二大脑?笔记记录
  • vue图片懒加载指令实现
  • Jedis快速入门【springboot】
  • 基于CodeBuddy的Craft完成一个数字华容道的小游戏
  • 4.安卓逆向2-抓包工具charles的安装和配置和基本使用
  • 漏洞检测与渗透检验在功能及范围上究竟有何显著差异?
  • 陌生的独角兽--SHEIN(希音)
  • python文本处理 2024年信息素养大赛复赛/决赛真题 小学组/初中组 python编程挑战赛 真题详细解析
  • 《扣子空间:开启AI智能体办公新时代》
  • 将 Workbook 输出流直接上传到云盘
  • [python] 轻量级定时任务调度库schedule使用指北
  • Rocketmq Broker与队列关系,怎么存储的
  • PySide6 GUI 学习笔记——常用类及控件使用方法(常用控件调色板QPalette)
  • 【LUT技术专题】DnLUT代码解读
  • 进程——概念及状态
  • NHANES最新指标推荐:NHR
  • DP2 跳台阶【牛客网】
  • win版mysql8.0和redis,解压即用
  • YOLO模型初次训练体验(+实测)
  • 时态--07--过去完成時
  • 预算1600万寻装修供应商,济宁银行山东省内第八家分行将落户济南
  • 区域、学校、课堂联动,上海浦东让AI素养培育贯穿基础教育全学段
  • 迪拜工业城2025年初表现强劲,有望迎来投资增长新高
  • 总数再更新!我国新增三项全球重要农业文化遗产
  • 老旧小区加装电梯后续维护谁负责?上海:各区属房管集团托底保障
  • 莱布雷希特专栏:古典乐坛边缘人