当前位置：首页 > news >正文

英伟达语音识别模型论文速读：MOSEL 数据集

news 2025/7/1 9:34:22

《950,000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages》论文解析

一、研究背景与动机

论文首先指出，随着基础模型（FMs）的兴起以及对其风险和影响的监管努力，开源模型引起了广泛关注。然而，现有的语音基础模型（SFMs）并未完全符合开源原则，因为没有模型能同时公开模型权重、代码和训练数据。作者强调，根据开源倡议的定义，开源 AI 需要满足使用、研究、修改和分享的自由，且训练数据的许可证不能限制这些权利。

论文聚焦于欧盟的 24 种官方语言，旨在填补开源语音基础模型（OSSFM）的空白。为此，作者收集了符合开源许可的自动语音识别（ASR）数据集和未标注语音语料库，总计 950,000 小时，并为 441,000 小时的未标注数据生成了自动转录文本，以促进欧盟语言开源 SFM 的开发。

二、开源合规语音数据

数据集调查

作者调查了适用于欧盟 24 种语言的开源合规语音数据集，这些数据集需满足免费获取且数据许可证允许创建和重新分发衍生产品。最终纳入的 18 个数据集涵盖了 505,725 小时的标注数据和 444,467 小时的未标注数据，总计 950,192 小时。其中，标注数据高度偏向英语，而未标注数据分布相对均衡。

数据集特点

MOSEL 数据集：包含 18 个子数据集，其中 7 个属于公共领域或采用 CC-0 许可证。例如，CommonVoice 数据集包含 6,732 小时语音数据，覆盖 22 种欧盟语言。
YouTube-Commons 数据集：尽管包含大量数据，但存在视频无语音、语言识别标签不准确等问题，需进一步处理才能用于训练。

三、伪标注过程

鉴于大多数语言标注数据稀缺，作者为 VoxPopuli 和 LibriLight 的 441,000 小时未标注语音数据生成了自动转录文本（伪标签）。使用 Whisper large v3 模型进行转录，该模型允许生成内容在任何许可证下发布。转录过程在 NVIDIA A100 64GB GPU 上进行，总耗时约 25,500 GPU 小时，成本超 100,000 美元，碳排放估计为 35,625 kgCO₂eq。

四、马耳他语实验验证

实验目的

选择马耳他语作为实验对象，因其资源稀缺，且 Whisper 在该语言上表现最差。实验旨在证明收集的数据和生成的转录文本可有效用于训练 ASR 模型。

实验方法

模型架构：采用 12 层 Conformer 编码器和 6 层 Transformer 解码器的序列到序列模型，共 116M 参数。
训练策略：使用标签平滑交叉熵损失和 CTC 损失，Adam 优化器配合 Noam 学习率调度器。为避免过拟合，设置 dropout 和权重衰减，并应用 SpecAugment 数据增强技术。
数据处理：对伪标注数据应用简单过滤方法，去除其他语言音频和包含幻觉的自动转录文本。