当前位置: 首页 > news >正文

CNN、RNN、Transformer对于长距离依赖的捕捉能力分析

  1. 卷积网络CNN主要依靠深度来捕捉长距离依赖。但这个过程太间接了,因为信息在网络中实际传播了太多层。究竟哪些信息被保留,哪些被丢弃了,弄不清楚。从实践经验来看,卷积网络捕捉长依赖的能力非常弱。这也是为什么在大多数需要长依赖关系建模的场景中,CNN用的并不多的原因。
  2. RNN后一个词的计算需要用到前一个词的输出结果,所以理论上任何两个词的依赖RNN都能捕捉到。以信息流的方法来看,图中绿色箭头表明信息的流动方向。容易看到,不论是相隔多远的词,它们的信息一定会相聚在某一步计算中。
    上述是理论上的情况。实际中,因为RNN训练过程中容易出现梯度消失或梯度爆炸,所以它实际上很难把长依赖捕捉的比较好。有一些研究表明,不论是何种改进的RNN(如LSTM、GRU),它们一般捕捉长依赖的极限也就20个词的左右能力。
  3. 不用看Transformer的公式,单看它的计算逻辑就能发现,它在计算任意一个词的新表征(特征)时,同时用到了其它所有词的信息。题主提到的数学期望其实是一个“加权和”。它是在计算得到所有attention score后,以加权和的形式来计算某一个词的新表征。

相关文章:

  • Zookeeper 集群安装与脚本化管理详解
  • vue3中使用Element-Plus的几种方式
  • IVX:重构 AI 原生开发范式,让模型调用成为指尖艺术​
  • pom.xml中的runtime
  • spark任务的提交流程
  • 大数据Spark(五十九):Standalone集群部署
  • 【大模型】SpringBoot 整合Spring AI 对接主流大模型平台实战详解
  • 前端单点登录
  • 【Linux笔记】——线程同步信号量与环形队列生产者消费者模型的实现(PV操作)
  • BigemapPro蒙版使用技巧:精准导出地图范围
  • 2025年AI搜索引擎发展洞察:技术革新与市场变革
  • 代码随想录算法训练营 Day52 图论Ⅲ 岛屿问题Ⅱ 面积 孤岛 水流 造岛
  • 基于AutoDL市场下的Pycharm远程控制
  • window 显示驱动开发-GDI 硬件加速
  • 驱动开发硬核特训 · Day 31:理解 I2C 子系统的驱动模型与实例剖析
  • 每日Prompt:双重曝光
  • 软考中级软件设计师——计算机网络 IP地址与子网掩码相关题型
  • 亚远景-汽车软件开发的“升级之路”:ASPICE各等级说明
  • 汽车充电过程中--各个电压的关系(DeepSeek)
  • Vue+eElement ui el-input输入框 type=number 输入无效。赋值输入框也不显示(问题已解决)
  • 住建部:截至去年底常住人口城镇化率达到67%
  • 复旦兼职教授高纪凡首秀,勉励学子“看三十年才能看见使命”
  • 中国物流集团等10家央企11名领导人员职务任免
  • 泽连斯基:正在等待俄方确认参加会谈的代表团组成
  • 河南省委常委会会议:坚持以案为鉴,深刻汲取教训
  • 远如《月球背面》,近似你我内心