当前位置: 首页 > news >正文

如何理解卷积,和自注意力机制的局限与优势(个人理解)

如何理解卷积

卷积,特征提取器,每个通道对应机器认为的一个特征,每次卷积需要考虑所有特征的线性组合,也就是整合特征

问题:卷积不能全局建模

诚然,卷积感受野有限(3*3),不像注意力机制关注全局信息;
但是,如果我不断的卷积,一个人的脑袋,和一个人的身体,终究会在一个窗口内相遇,此时人这个语义不就被学出来了么?
过深的网络,会遇到梯度消失,即使加入Relu 函数,效率下降,梯度消失是必然出现。
resnet 加入残差,堆叠很深的网络,但是在论文中也提到,会学习到重复特征,整体网络荣誉,浪费资源,且训练资源消耗大。

而且,卷积是固定的,无法分辨出输入中可能有重要信息,错误信息,一视同仁卷积下去,没有选择关注能力/

那么,注意力机制呢?

如何理解注意力机制

注意力机制,全局建模,生成 Q, K,V
将KV 抽象的理解为信息库,像图书馆,而Q 理解为要查询的书,也就是抽象的理解为特征,语义。 那Q 去和K 做点积计算 相关性,其实是一个匹配 ,强化,增强的过程,匹配到的,增强过的,可以理解为是相关的,比如左边图片的人与右边图片的影子这两个语义是有关的。

注意力机制容易过拟合

参数量巨大,自由,容易记住训练集的特征,导致过拟合
在这里插入图片描述

http://www.dtcms.com/a/310535.html

相关文章:

  • C++中typename基本用法
  • Nastool+cpolar:群晖NAS用户的全场景影音自由方案
  • 理解HTTP协议
  • 网络配置+初始服务器配置
  • Effective C++ 条款15:在资源管理类中提供对原始资源的访问
  • 在 Docker 中启动 Nginx 并挂载配置文件到宿主机目录
  • MyBatis知识点
  • 烽火HG680-KX-海思MV320芯片-2+8G-安卓9.0-强刷卡刷固件包
  • 电子电气架构 --- 加速48V技术应用的平衡之道
  • 机器学习sklearn:处理缺失值
  • 应用分层
  • 菜鸟教程Shell笔记 数组 运算符 echo命令
  • Qwen2 RotaryEmbedding 位置编码仅仅是第一层有吗
  • 深度学习-梯度爆炸与梯度消失
  • Node.js的用途和安装方法
  • flutter——ColorScheme
  • 第13届蓝桥杯Python青少组中/高级组选拔赛(STEMA)2021年10月24日真题
  • Class28批量归一化
  • java下载word
  • 第七章 愿景14 数据规划
  • 吃透 B + 树:MySQL 索引的底层逻辑与避坑指南
  • SpringMVC全局异常处理+拦截器使用+参数校验
  • Bootstap Vue 之b-form-radio-group 不显示选中状态问题
  • 高并发爬虫的限流策略:aiohttp实现方案
  • 8.1 开始新的学习历程
  • 深入理解 Linux 进程地址空间
  • 一体化智能截流井市场报告:深度解析行业现状与未来增长潜力
  • 【Dart 教程系列第 51 篇】Iterable 中 reduce 函数的用法
  • Vue2 项目实现 Gzip 压缩全攻略:从配置到部署避坑指南
  • 静电释放检测漏报率↓85%!陌讯多模态融合算法在电子厂ESD防护实战解析