当前位置: 首页 > news >正文

【语音识别】- 几个主流模型

文章目录

      • 1. Wav2Vec 2.0
      • 2. Whisper
      • 2. WeNet

1. Wav2Vec 2.0

由Facebook AI Research(FAIR)于2020年提出的在语音方向里具有一定影响力的预训练模型。

论文地址:https://arxiv.org/pdf/2006.11477.pdf
项目地址:https://github.com/pytorch/fairseq

训练数据:62万小时未标注数据

结构:由FeatureEncoder和Encoder两个模块组成。
其中FeatureEncoder由7层卷机结构组成,Encoder就是Transformer。

乘积量化:把原来连续的特征空间假设是d维,拆分成G个子空间(codebook),每个子空间维度是d/G。然后分别在每个子空间里面聚类,一共获得V个中心和其中心特征。每个类别的特征用其中心特征代替。这样原来d维的连续空间,坍缩成了有限离线的空间[GxV],其可能的特征种类数就只有G*V个。

损失函数:由对比损失和多样性损失两部分构成。

虽然无监督预训练能产生高质量的语音表征,但它学不到语音到文本的映射,要学到语音到文本的映射只能靠微调

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.dtcms.com/a/8819.html

相关文章:

  • 数据库的介绍、分类、作用和特点
  • 【C++精简版回顾】14.(重载2)流重载
  • 【Python】python离线安装依赖
  • 3D工业相机及品牌集合
  • 蓝月亮,蓝禾,三七互娱,顺丰,康冠科技,金证科技24春招内推
  • git入门
  • PCIE Order Set
  • java spring cloud 企业电子招标采购系统源码:营造全面规范安全的电子招投标环境,促进招投标市场健康可持续发展
  • 大宇、固特、希亦超声波清洗机实测,哪款清洗效果好?一篇掌握
  • Laravel Octane 和 Swoole 协程的使用分析二
  • Unity 向量计算、欧拉角与四元数转换、输出文本、告警、错误、修改时间、定时器、路径、
  • SQL server创建数据库
  • leetcode--接雨水(双指针法,动态规划,单调栈)
  • 【AI Agent系列】【MetaGPT多智能体学习】3. 开发一个简单的多智能体系统,兼看MetaGPT多智能体运行机制
  • python66-Python的循环之常用工具函数
  • pyspark(一) DataFrame结合jupyter入门
  • Redis内存淘汰策略详解
  • Java面试题总结6
  • 【GPTs分享】每日GPTs分享之Image Generator Tool
  • 加密和签名的区别及应用场景
  • 详解字符串函数<string.h>(上)
  • 详解IP安全:IPSec协议簇 | AH协议 | ESP协议 | IKE协议
  • 回溯 Leetcode 47 全排列II
  • 鸿蒙ArkTs开发WebView问题总结
  • ChatGPT学习第三周
  • SpringBoot 自定义映射规则resultMap association一对一
  • Nacos配置
  • 动态规划--(算法竞赛、蓝桥杯)--二维费用背包
  • 如何学习自然语言处理之语言模型
  • 【投稿优惠|快速见刊】2024年图像,机器学习和人工智能国际会议(ICIMLAI 2024)