当前位置：首页 > news >正文

【语音识别】- 几个主流模型

news 2025/10/10 18:08:33

由Facebook AI Research（FAIR）于2020年提出的在语音方向里具有一定影响力的预训练模型。

论文地址：https://arxiv.org/pdf/2006.11477.pdf
项目地址：https://github.com/pytorch/fairseq

训练数据：62万小时未标注数据

结构：由FeatureEncoder和Encoder两个模块组成。
其中FeatureEncoder由7层卷机结构组成，Encoder就是Transformer。

乘积量化：把原来连续的特征空间假设是d维，拆分成G个子空间（codebook），每个子空间维度是d/G。然后分别在每个子空间里面聚类，一共获得V个中心和其中心特征。每个类别的特征用其中心特征代替。这样原来d维的连续空间，坍缩成了有限离线的空间[GxV]，其可能的特征种类数就只有G*V个。

损失函数：由对比损失和多样性损失两部分构成。

虽然无监督预训练能产生高质量的语音表征，但它学不到语音到文本的映射，要学到语音到文本的映射只能靠微调

数据库的介绍、分类、作用和特点

【Python】python离线安装依赖

3D工业相机及品牌集合

git入门

PCIE Order Set

SQL server创建数据库

python66-Python的循环之常用工具函数

pyspark（一） DataFrame结合jupyter入门

Redis内存淘汰策略详解

Java面试题总结6

加密和签名的区别及应用场景

详解字符串函数＜string.h＞（上）

回溯 Leetcode 47 全排列II

鸿蒙ArkTs开发WebView问题总结

ChatGPT学习第三周

Nacos配置

如何学习自然语言处理之语言模型