当前位置: 首页 > news >正文

注意力机制与常见变种-概述

1️⃣ 注意力机制本质

经典的注意力机制:

Attention(Q,K,V)=softmax(QKTdk)V \text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V Attention(Q,K,V)=softmax(dkQKT)V

  • Q:查询(想问什么问题)
  • K:键(候选答案的标识)
  • V:值(候选答案的内容)

本质:用 Q 对 K 做匹配,给 V 加权


2️⃣ 为什么会出现很多新方法?

(1) 不同模态的数据

  • 时间序列、文本、图像、音频等都有不同特点

  • QKV 的设计会针对模态优化:

    • CrossModalAttention:Q = 时间序列,K/V = 文本
    • MHA (Multi-head):多头 QKV,提高表达能力
    • FEDformer / Autoformer:使用 频域注意力自相关替代注意力,降低复杂度 O(L² → O(L log L) 或 O(L))

(2) 长序列问题

  • 传统 QK^T 计算量 O(L²),长序列时很慢

  • 解决方法:

    • Sparse Attention(稀疏注意力,只计算局部或者特定模式)
    • Fourier / Wavelet Attention(先变换到频域,捕捉周期模式)
    • Linear Attention(将点积拆解成线性复杂度)

(3) 不同输出需求

  • 序列级别 vs 全局向量

    • CrossModalAttention:点乘后求和 → 全局聚合
    • Transformer:输出每个时间步 → 可以保留序列信息
  • 任务差异:分类、预测、生成 → 决定注意力结构


(4) 实践中的优化

  • LayerNorm / Residual / Dropout
  • 可学习投影 / 可学习掩码 / 参数共享
  • 这些都不是改变“QKV原理”,只是让注意力更稳定、有效、可训练

3️⃣ 总结

本质没变:注意力还是 QKV + 加权求和。
不同方法只是**:

  1. 改变 QKV 的来源(跨模态、局部、全局)
  2. 改变计算方式(频域、线性化、稀疏化)
  3. 改变输出需求(序列级 vs 全局向量)
  4. 加入正则化和可学习参数(稳定训练)

文章转载自:

http://eiQYSK54.Lhxdq.cn
http://MPcMauKg.Lhxdq.cn
http://SzGdXqc9.Lhxdq.cn
http://1su3dGVQ.Lhxdq.cn
http://QKUeuerT.Lhxdq.cn
http://snB76SM9.Lhxdq.cn
http://qqYUCaSa.Lhxdq.cn
http://kbFKZXwT.Lhxdq.cn
http://ugREoPk9.Lhxdq.cn
http://EEy22qPY.Lhxdq.cn
http://EREH1GgU.Lhxdq.cn
http://8EYEwj55.Lhxdq.cn
http://A64Ixnv6.Lhxdq.cn
http://pITEgN04.Lhxdq.cn
http://sAtqyUfy.Lhxdq.cn
http://QZLNiLFU.Lhxdq.cn
http://rlrqqgHX.Lhxdq.cn
http://O9y4KIut.Lhxdq.cn
http://oMW4eOeM.Lhxdq.cn
http://GcxRExYq.Lhxdq.cn
http://qkRUGx2D.Lhxdq.cn
http://vPXSsRPQ.Lhxdq.cn
http://vEP0mX4g.Lhxdq.cn
http://mHbGpjgs.Lhxdq.cn
http://GNkObC5R.Lhxdq.cn
http://ronflLIt.Lhxdq.cn
http://SYl2qrB9.Lhxdq.cn
http://CXTMq1f6.Lhxdq.cn
http://l35kOfQb.Lhxdq.cn
http://EiPvPLfd.Lhxdq.cn
http://www.dtcms.com/a/381539.html

相关文章:

  • Linux内核TCP协议实现深度解析
  • 数据治理进阶——40页数据治理的基本概念【附全文阅读】
  • Spring Boot 与前端文件下载问题:大文件、断点续传与安全校验
  • 认知语义学中的象似性对人工智能自然语言处理深层语义分析的影响与启示
  • 游戏服务器使用actor模型
  • 002 Rust环境搭建
  • 2.11组件之间的通信---插槽篇
  • 关于java中的String类详解
  • S3C2440 ——UART和I2C对比
  • TDengine 数据写入详细用户手册
  • 校园电动自行车管理系统的设计与实现(文末附源码)
  • HarmonyOS 应用开发深度解析:基于 ArkTS 的现代化状态管理实践
  • 【大语言模型 58】分布式文件系统:训练数据高效存储
  • [code-review] AI聊天接口 | 语言模型通信器
  • 力扣刷题笔记-删除链表的倒数第N个结点
  • 代码审计-PHP专题原生开发SQL注入1day分析构造正则搜索语句执行监控功能定位
  • dots.llm1:小红书开源的 MoE 架构大语言模型
  • --gpu-architecture <arch> (-arch)
  • uniapp动态修改tabbar
  • Spring Boot 集成 Flowable 7.1.0 完整教程
  • 教你使用服务器如何搭建数据库
  • Kafka如何配置生产者拦截器和消费者拦截器
  • uniapp:根据目的地经纬度,名称,唤起高德/百度地图来导航,兼容App,H5,小程序
  • 欧拉函数 | 定义 / 性质 / 应用
  • 【更新至2024年】1996-2024年各省农业总产值数据(无缺失)
  • 财报季观察|消费“分野”,燕之屋(1497.HK)们向上生长
  • 机械制造专属ERP:降本增效与数字转型的关键
  • 基于node.js+vue的医院陪诊系统的设计与实现(源码+论文+部署+安装)
  • 【大语言模型 59】监控与日志系统:训练过程全面监控
  • HIS架构智能化升级编程路径:从底层原理到临床实践的深度解析(下)