当前位置：首页 > news >正文

多头注意力机制和单注意力头多输出的区别

news 2025/7/7 17:12:04

多头注意力得到的是一个 6×4 维的张量：我们有 6 个输入 token 和 4 个自注意力头，其中每个自注意力头返回一个 1 维输出。之前的自注意力一节也得到了一个 6×4 维的张量。这是因为我们将输出维度设为了 4，而不是 1。既然我们可以就在 SelfAttention 类中调整输出嵌入的大小，那么我们为什么在实践时需要多个注意力头？
增加单自注意力头的输出维度和使用多个注意力头的区别在于模型处理和学习数据的方式。尽管这两种方法都能提升模型表征数据的不同特征或不同方面的能力，但它们的方式却有根本性的差异。例如，多头注意力中的每个注意力头都可以学习关注输入序列的不同部分，捕获数据中的不同方面或关系。这种表征的多样性是多头注意力成功的关键。

参考链接：大模型时代还不理解自注意力(Self-Attention)？这篇文章教你从头写代码实现
此链接还包括关于交叉注意力、因果注意力的讲解

http://www.dtcms.com/a/203375.html

相关文章：

第二章何谓第二大脑？笔记记录

vue图片懒加载指令实现

Jedis快速入门【springboot】

基于CodeBuddy的Craft完成一个数字华容道的小游戏

4.安卓逆向2-抓包工具charles的安装和配置和基本使用

漏洞检测与渗透检验在功能及范围上究竟有何显著差异？

陌生的独角兽--SHEIN(希音)

python文本处理 2024年信息素养大赛复赛/决赛真题小学组/初中组 python编程挑战赛真题详细解析

《扣子空间：开启AI智能体办公新时代》

将 Workbook 输出流直接上传到云盘

[python] 轻量级定时任务调度库schedule使用指北

Rocketmq Broker与队列关系，怎么存储的

PySide6 GUI 学习笔记——常用类及控件使用方法（常用控件调色板QPalette）

【LUT技术专题】DnLUT代码解读

进程——概念及状态

NHANES最新指标推荐：NHR

DP2 跳台阶【牛客网】

win版mysql8.0和redis，解压即用

YOLO模型初次训练体验（+实测）

时态--07--过去完成時

探秘「4+3原型驱动的交付模式」如何实现软件快速定制

现代计算机图形学Games101入门笔记(十八)

《算法笔记》11.8小节——动态规划专题-＞总结问题 B: 拦截导弹

第二届帕鲁杯时间折叠（TimeFold Paradox）

2025年电工杯新规发布-近三年题目以及命题趋势

vLLM框架高效原因分析

游戏开发实战（三）：Python复刻「崩坏星穹铁道」嗷呜嗷呜事务所---源码级解析该小游戏背后的算法与设计模式【纯原创】

【优秀三方库研读】在 quill 开源库中为什么封装 safe_fwrite，而不是直接使用系统 fwrite

Unity3D仿星露谷物语开发47之砍树时落叶特效

四元数中 w xyz 的含义及应用