当前位置: 首页 > news >正文

conformer编码器

abstract

最近,基于Transformer和卷积神经网络(CNN)的模型在自动语音识别(ASR)中显示出有希望的结果,优于递归神经网络(RNN)。Transformer模型擅长捕捉基于内容的全局交互,而CNN则有效地利用了局部特征。在这项工作中,我们通过研究如何将联合收割机卷积神经网络和transformers结合起来,以参数有效的方式对音频序列的局部和全局依赖性进行建模,从而实现两全其美。在这方面,我们提出了卷积增强的Transformer语音识别,命名为Conformer。Conformer显著优于之前的基于Transformer和CNN的模型,实现了最先进的精度。在广泛使用的LibriSpeech基准测试中,我们的模型在不使用语言模型的情况下实现了2.1%/4.3%的WER,在使用外部语言模型的情况下实现了1.9%/3.9%的WER。我们还观察到2.7%/6.3%的竞争性能,只有10 M参数的小模型。

索引术语:语音识别、注意力、卷积神经网络、Transformer、端到端

intro

近年来,基于神经网络的端到端自动语音识别(ASR)系统有了很大的改进。递归神经网络(RNN)已经成为ASR的事实上的选择[1,2,3,4],因为它们可以有效地对音频序列中的时间依赖性进行建模[5]。最近,基于自我注意力的Transformer架构[6,7]由于其捕获长距离交互的能力和高训练效率而被广泛采用用于建模序列。或者,卷积也成功用于ASR [8,9,10

相关文章:

  • RFID使用指南
  • MODBUS转ProfiNet边缘计算网关驱动霍尼韦尔HPT温湿度仪表的动态控制闭环方案
  • Trae 实测:AI 助力前端开发,替代工具还远吗?
  • 2025年PTA天梯赛正式赛 | 算法竞赛,题目详解
  • 从 0 开始认识 WebSocket:前端实时通信的利器!
  • LabVIEW基于VI Server的控件引用操作
  • PTC加热片详解(STM32)
  • 代码随想录算法训练营day11(二叉树)
  • openwrt查询网关的命令
  • Android 14 系统统一修改app启动时图标大小和圆角
  • 解锁Linux共享内存:进程间通信的超高速通道(转)
  • 今日行情明日机会——20250425
  • 什么是CN2专线?全面解析中国电信的高性能网络服务
  • Android Studio开发中Application和Activity生命周期详解
  • MySQL基础——聚合查询(全面解析)
  • 入侵检测系统(IDS)与入侵防御系统(IPS):功能对比与部署实践
  • Linux-06 ubuntu 系统截图软件使用简单记录
  • 大型工程里 AI 编码困境重重,未来如何破局?
  • CodeMeter Runtime 安装失败排查与解决指南
  • Operating System 实验二 内存管理实验
  • 关于“十五五”,在上海召开的这场座谈会释放最新信号
  • 中央网信办:重点整治违规AI产品、利用AI制作发布谣言等突出问题
  • 【社论】法治是对民营经济最好的促进
  • 城市更新·简报│中央财政支持城市更新,倾斜超大特大城市
  • 原国家有色金属工业局副局长黄春萼逝世,享年86岁
  • 临港迎来鸿蒙智行“尚界”整车及电池配套项目,首款车型今秋上市