当前位置: 首页 > news >正文

CNN、RNN、Transformer对于长距离依赖的捕捉能力分析

  1. 卷积网络CNN主要依靠深度来捕捉长距离依赖。但这个过程太间接了,因为信息在网络中实际传播了太多层。究竟哪些信息被保留,哪些被丢弃了,弄不清楚。从实践经验来看,卷积网络捕捉长依赖的能力非常弱。这也是为什么在大多数需要长依赖关系建模的场景中,CNN用的并不多的原因。
  2. RNN后一个词的计算需要用到前一个词的输出结果,所以理论上任何两个词的依赖RNN都能捕捉到。以信息流的方法来看,图中绿色箭头表明信息的流动方向。容易看到,不论是相隔多远的词,它们的信息一定会相聚在某一步计算中。
    上述是理论上的情况。实际中,因为RNN训练过程中容易出现梯度消失或梯度爆炸,所以它实际上很难把长依赖捕捉的比较好。有一些研究表明,不论是何种改进的RNN(如LSTM、GRU),它们一般捕捉长依赖的极限也就20个词的左右能力。
  3. 不用看Transformer的公式,单看它的计算逻辑就能发现,它在计算任意一个词的新表征(特征)时,同时用到了其它所有词的信息。题主提到的数学期望其实是一个“加权和”。它是在计算得到所有attention score后,以加权和的形式来计算某一个词的新表征。
http://www.dtcms.com/a/202318.html

相关文章:

  • Zookeeper 集群安装与脚本化管理详解
  • vue3中使用Element-Plus的几种方式
  • IVX:重构 AI 原生开发范式,让模型调用成为指尖艺术​
  • pom.xml中的runtime
  • spark任务的提交流程
  • 大数据Spark(五十九):Standalone集群部署
  • 【大模型】SpringBoot 整合Spring AI 对接主流大模型平台实战详解
  • 前端单点登录
  • 【Linux笔记】——线程同步信号量与环形队列生产者消费者模型的实现(PV操作)
  • BigemapPro蒙版使用技巧:精准导出地图范围
  • 2025年AI搜索引擎发展洞察:技术革新与市场变革
  • 代码随想录算法训练营 Day52 图论Ⅲ 岛屿问题Ⅱ 面积 孤岛 水流 造岛
  • 基于AutoDL市场下的Pycharm远程控制
  • window 显示驱动开发-GDI 硬件加速
  • 驱动开发硬核特训 · Day 31:理解 I2C 子系统的驱动模型与实例剖析
  • 每日Prompt:双重曝光
  • 软考中级软件设计师——计算机网络 IP地址与子网掩码相关题型
  • 亚远景-汽车软件开发的“升级之路”:ASPICE各等级说明
  • 汽车充电过程中--各个电压的关系(DeepSeek)
  • Vue+eElement ui el-input输入框 type=number 输入无效。赋值输入框也不显示(问题已解决)
  • 新能源汽车焊接智能节气阀
  • 46 python pandas
  • 2025 年暑假 LBE 大空间市场火爆程度预测:技术驱动与消费升级下的增长引擎
  • JavaSenderMail发送邮件(QQ及OFFICE365)
  • 指令烧录ORIN NANO操作系统
  • 地图收费,企业成本骤增,有哪些替代方案可破局?
  • Brave 连接 Websocket 失败
  • 第8天-Python趣味绘图:用Turtle库开启绘画编程之旅
  • 【jmeter】base64加密
  • 阿博图书馆管理系统 Java+Spring Boot+MySQL 实战项目分享