【语音识别】- 几个主流模型
文章目录
-
-
- 1. Wav2Vec 2.0
- 2. Whisper
- 2. WeNet
-
1. Wav2Vec 2.0
由Facebook AI Research(FAIR)于2020年提出的在语音方向里具有一定影响力的预训练模型。
论文地址:https://arxiv.org/pdf/2006.11477.pdf
项目地址:https://github.com/pytorch/fairseq
训练数据:62万小时未标注数据
结构:由FeatureEncoder和Encoder两个模块组成。
其中FeatureEncoder由7层卷机结构组成,Encoder就是Transformer。
乘积量化:把原来连续的特征空间假设是d维,拆分成G个子空间(codebook),每个子空间维度是d/G。然后分别在每个子空间里面聚类,一共获得V个中心和其中心特征。每个类别的特征用其中心特征代替。这样原来d维的连续空间,坍缩成了有限离线的空间[GxV],其可能的特征种类数就只有G*V个。
损失函数:由对比损失和多样性损失两部分构成。
虽然无监督预训练能产生高质量的语音表征,但它学不到语音到文本的映射,要学到语音到文本的映射只能靠微调
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.dtcms.com/a/8819.html
如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!