当前位置: 首页 > news >正文

WenetSpeech-Yue数据集及其诞生之路

1. 引言:粤语语音资源–>WenetSpeech-Yue

粤语的语言特性——复杂的九声六调、文白异读、与英语的频繁语码转换(Code-switching)——都对AI模型的建模能力提出了极高的要求。然而,在此之前,公开的粤语语音数据集存在诸多问题:

  • 规模小:最大的如Common Voice也仅有数百小时,与主流语言动辄数万小时的语料库相去甚远。
  • 风格单一:大多为朗读式语音,缺乏真实对话场景。
  • 标注维度少:通常只提供文本转录,缺少说话人信息(年龄、性别)、语音质量、情感等丰富的元数据,限制了其在风格化TTS、说话人识别、自监督学习等高级任务中的应用。

WenetSpeech-Yue的诞生,正是为了解决这一根本性的“资源之渴”。它通过一个自动化、模块化、可扩展的数据处理流水线,构建了一个规模达21,800小时、覆盖10个领域、包含多维度标注的迄今为止最大的开源粤语语音语料库。

2. WenetSpeech-Pipe流水线详解

WenetSpeech-Yue的成功,首先要归功于其背后的“总工程师”——WenetSpeech-Pipe。这是一个集成了六大核心模块的、端到端的数据处理与标注流水线,旨在从“野外”的原始音频中“炼”出高质量的结构化数据。

在这里插入图片描述

A. 音频收集 (Audio Collection)

  • 数据源: 从互联网上广泛爬取覆盖多种领域的粤语长音频,如故事、戏剧、评论、Vlog、美食、娱乐、新闻、教育等。
  • 处理:
    1. 领域定义 (Domain Definition): 首先对数据进行领域分类。
    2. 音频爬取 (Audio Crawling): 获取原始长音频。
    3. 语音活动检测 (VAD): 原始音频通常长达数十分钟,不适合直接处理。使用VAD模块将其自动切分成更短的、适合下游处理的语音片段(utterance-level)。

B. 说话人属性标注 (Speaker Attributes Annotation)

  • 目标: 为数据添加说话人层面的元数据,以支持多说话人建模和风格控制。
  • 处理:
    1. 说话人日志 (Speaker Diarization): 使用pyannote工具包,对来自同一源音频的短片段进行聚类,为每个片段分配一个局部的说话人ID,实现录音内的说话人分离。
    2. 年龄与性别估计: 使用Vox-

文章转载自:

http://QH9jsttv.wLqLL.cn
http://1dAlj4UG.wLqLL.cn
http://PFRQoSSt.wLqLL.cn
http://A3rvq9cW.wLqLL.cn
http://wbdgzPCi.wLqLL.cn
http://cA4OY7cP.wLqLL.cn
http://j7qCWNzu.wLqLL.cn
http://PVDF3Y1z.wLqLL.cn
http://lTyuLkTO.wLqLL.cn
http://Rjg4sj0L.wLqLL.cn
http://0MxnQ3to.wLqLL.cn
http://5UmMuYpC.wLqLL.cn
http://LyZKOpSX.wLqLL.cn
http://XHMATwzb.wLqLL.cn
http://4pgLLSrQ.wLqLL.cn
http://bK6a835Z.wLqLL.cn
http://tB99lATF.wLqLL.cn
http://Y1LEcr2A.wLqLL.cn
http://H6JewXsb.wLqLL.cn
http://C3FmdC7C.wLqLL.cn
http://Jm7dwa7A.wLqLL.cn
http://HIKuIK2E.wLqLL.cn
http://by2S3gQl.wLqLL.cn
http://3XWp5pD8.wLqLL.cn
http://GdK27x8l.wLqLL.cn
http://uD4u08yv.wLqLL.cn
http://LinVMdVG.wLqLL.cn
http://n15AOIEI.wLqLL.cn
http://BA2If4aR.wLqLL.cn
http://m7XJpgjC.wLqLL.cn
http://www.dtcms.com/a/376489.html

相关文章:

  • 用粒子群算法PSO优化BP神经网络改善预测精度
  • 百度文心X1.1发布!实测深度思考能力!
  • 第六篇:终极压力测试——故障注入测试(FIT)
  • 文心大模型 X1.1:百度交出的“新深度思考”答卷
  • 物联网平台中的MongoDB(二)性能优化与生产监控
  • 性能测试-jmeter9-逻辑控制器、定时器压力并发
  • 网络编程;TCP控制机械臂;UDP文件传输;0910;ps今天没写出来
  • Firefox Window 开发详解(一)
  • 无公网 IP 也能轻松访问家中群晖 NAS:神卓 NAT 盒子使用记
  • 01数据结构-B树
  • 2025年最强XPath定位工具:SelectorsHub在Chrome与Firefox中的全方位使用指南
  • 如何将音乐从Redmi手机转移到Redmi手机
  • 大数据与云计算知识点
  • 第5篇、 Kafka 数据可靠性与容错机制
  • EasyExcel部署Docker缺少字体报错
  • CentOS Steam 9安装 Redis
  • 将GitHub远程仓库修改为ssh
  • 什么是测试
  • 在pycharm终端安装torch
  • P1141 01迷宫
  • 大模型中的位置编码详解
  • 【华为OD】贪吃的猴子
  • 【CS32L015C8T6】下载Hex文件配置及异常现象解决方法
  • PySpark EDA 完整案例介绍,附代码(三)
  • 强化学习 Reinforcement Learing
  • 数据库物理外键与逻辑外键全解析
  • 分布式专题——8 京东热点缓存探测系统JDhotkey架构剖析
  • 计算机系统性能、架构设计、调度策略论文分类体系参考
  • Mujoco学习记录
  • [react] react-router-dom是啥?