【场景应用9】多语言预训练语音模型进行自动语音识别
一、理论介绍
“多语言预训练语音模型进行自动语音识别”这个模块是近年来语音识别(ASR, Automatic Speech Recognition)领域非常重要的发展方向。下面我来为你系统地讲解这个模块的基础理论与算法流程,尤其聚焦在如 wav2vec 2.0 multilingual、XLSR(cross-lingual speech representation)这类预训练模型上。
1. 基础理论
1.1 什么是多语言预训练语音模型?
多语言语音模型是一种 用多种语言的语音数据联合预训练的模型,它可以提取语言无关的语音特征,从而适用于多种语言的 ASR 任务,而不必为每种语言单独训练一个模型。
典型的多语言预训练模型包括:
- wav2vec 2.0 XLSR(Facebook)
- whisper multilingual(OpenAI)
- hubert XLSR(Facebook)
- seamlessM4T(Meta