当前位置: 首页 > news >正文

10.1 面向长序列建模的高效注意力机制

https://www.bilibili.com/video/BV1PdJCzYE1h/?spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=284dd1be665e64cb9c4a46e55c4dac61

attention的复杂度是n^2 ,主要来源是Q和K矩阵的相乘 有没有一种办法可以降低时间复杂度呢

1、linear attention

线性注意力机制

先计算k v,

 Linear Attention 的想法

核心 trick:
把 相似度函数 Sim(Q,K)Sim(Q,K) 从原本的内积(再加 softmax)改写为一种 核函数形式

Sim(Q,K)=ϕ(Q)ϕ(K)TSim(Q,K)=ϕ(Q)ϕ(K)T

这里 ϕ(⋅)ϕ(⋅) 是一个非线性映射(kernel feature map),设计它是为了近似 softmax 的效果。

2、Agent attention

参照清华大学黄高论文

3、mamba

http://www.dtcms.com/a/432073.html

相关文章:

  • 怎么自己做网站挣钱网站cn和com有什么区别
  • java线上问题排查-OOM内存溢出
  • 阿里云国际站官网如何让网站不被收录
  • Notepad++下载安装图文教程(附安装包)
  • ProtoBuf使用手册(入门)
  • 网站服务器 电信推广码怎么填
  • 数据驱动+AI赋能:互联网项目管理全流程的技术破局与方法论实践
  • 贵阳网站建设设计手机做任务的网站
  • AI大模型:(三)1.4 Dify聊天助手快速搭建智能淘宝店小二
  • dw做网站怎么排版网站开发应财务如何记账
  • 网站开发流行工具如何知道一个网站做的什么推广
  • 网站建设方面书籍手机网站导航特效
  • 网站策划包括哪些内容中国哪家网站做仿古做的好
  • 常用的建一个网站要多少钱四川省和城乡建设厅网站
  • 笔记:标准化和归一化的学习
  • 培训学校类网站建设方案1软装包括哪些
  • 计算机网络【第三章-数据链路层】
  • 网站 建设 内容 安排济南seo整站优化厂家
  • Ubuntu 中获取指定软件依赖安装包
  • 利用CountDownLatch批量处理解决实际业务问题
  • 网站建设公司新员工培训ppt模板北京发布紧急通知2023年
  • 移动端网站怎么做软件界面设计软件有哪些
  • Linux系统C语言中与文件操作相关的核心库函数讲解
  • 大数据成矿预测系列(二) | 证据权重法如何克服自身局限?
  • 基于springboot的家校合作管理系统
  • 湖南网站建设 搜搜磐石网络网站首页图片素材
  • STM32控制开发学习笔记【基于STM32 HAL库】
  • 滕州做网站比较好的网络公司网页设计十大品牌
  • 【项目】基于Spring全家桶的论坛系统 【上】
  • 北京移动端网站公司基于PHP的家教网站开发环境