Pytorch使用手册-使用Wav2Vec2进行强制对齐(专题二十五)
本教程展示了如何使用torchaudio将转录与语音对齐,使用的是在《CTC-Segmentation of Large Corpora for German End-to-end Speech Recognition》文中描述的CTC分段算法。
注意
本教程最初是为了展示Wav2Vec2预训练模型的一个用例。
TorchAudio现在提供了一组用于强制对齐的API。CTC强制对齐API教程展示了torchaudio.functional.forced_align()
的使用方法,这是核心API。
如果你希望对你的语料库进行对齐,建议使用torchaudio.pipelines.Wav2Vec2FABundle
,它结合了forced_align()
和其他支持功能,并使用专门为强制对齐训练的预训练模型。请参阅《多语言数据的强制对齐》教程,了解其使用方法。
import torch
import torchaudio
print(torch