当前位置: 首页 > news >正文

语音识别数据集

目录

Voice Activity Detection

自己采集:

1. ASR Resources(语音识别资源)

2. LM Resources(语言模型资源)

这是一个数据表:

噪声数据集:


Voice Activity Detection

自己采集:

自己分别采集有有声音的,没有声音的

多人说话的,

在语音识别(ASR)中,ASR ResourcesLM Resources 各自有不同的含义和作用。下面是它们的详细解释:

1. ASR Resources(语音识别资源)

ASRAutomatic Speech Recognition,即 自动语音识别。是将语音信号转化为文本。包括:

  • 音频数据集:用于训练ASR模型的语音数据,如包含不同口音、环境噪音、语速等的多样化音频文件。

  • 声学模型:用于将音频信号转换为音素(语音单元)或词的模型,通常通过深度神经网络(如DNN、CNN、RNN)进行训练。

  • 词典:包含音素与词汇的映射关系,帮助ASR系统从音频信号识别出正确的词。

  • 标注数据:通常包括每个音频片段与其对应的正确转录文本,这些数据用于训练和评估ASR模型。

2. LM Resources(语言模型资源)

LMLanguage Model(语言模型)的缩写。语言模型在语音识别中的作用是根据上下文来预测词语的出现概率,从而提高识别的准确性。LM Resources 指的是构建和使用语言模型所需的各种资源,主要包括:

  • 语言建模语料库:用于训练语言模型的文本数据集。它包含大量的文本,帮助模型学习语言的结构、语法和常见的词组搭配。

  • 预训练语言模型:例如3-gram、5-gram等n-gram模型或更复杂的神经网络语言模型(如RNN、LSTM、Transformer),用于捕捉词语之间的统计关系。

  • 词汇表:包含所有模型可能识别的词汇,可以是训练语言模型时的一个子集,帮助限制可能出现的词的范围。

总结

  • ASR Resources 主要关注与语音信号和音频处理相关的资源,用来从语音转化为文本。

  • LM Resources 主要关注文本数据和语言结构,用来提高语音识别的上下文理解和准确性。

这两者结合,能显著提高语音识别系统的整体效果。

这是一个数据表:

名称小时数语言数链接许可证md5sum
Bible.is53,1381,596https://live.bible.is/bible/EN1ESV/MAT/1独特的ea404eeaf2cd283b8223f63002be11f9
globalrecordings.net9,7436,171Global Recordings NetworkCC BY-NC-SA 4.03c5c0f31b0abd9fe94ddbe8b1e2eb326
VoxLingua1076,628107https://bark.phon.ioc.ee/voxlingua107/CC BY 4.05dfef33b4d091b6d399cfaf3d05f2140
Common Voice30,329120Common VoiceCC05e30a85126adf74a5fd1496e6ac8695d
MLS50,7098openslr.orgCC BY 4.0a339d0e94bdf41bba3c003756254ac4e
总计150,5476,171+

可以直接下载的:

MLS

Common Voice

噪声数据集:

https://github.com/snakers4/silero-vad/wiki/Quality-Metrics#sample-rate-comparison

 

DatasetDuration, hoursDomain
ESC-502.7Environmental noise
AliMeeting test43Far/near meetings speech
Earnings 2139Calls
MSDWild80Noisy speech
AISHELL-4 test12.7Meetings
VoxConverse test43.5Noisy speech
Libriparty test4Noisy speech
Private noise0.5Noisy calls without speech
Private speech3.7Speech
Multi-Domain Validation17Multi

 

http://www.dtcms.com/a/311947.html

相关文章:

  • 【ROS2】ROS2节点Node机制与常用命令行
  • Autosar Nm-网管报文PNC停发后无法休眠问题排查
  • 决策树算法:三大核心流程解析
  • Agents-SDK智能体开发[4]之集成MCP入门
  • Qt 槽函数被执行多次,并且使用Qt::UniqueConnection无效【已解决】
  • Python编程基础与实践:Python文件处理入门
  • 智能手表:MPU6050和水平仪,动态表情包
  • 第14届蓝桥杯Python青少组中/高级组选拔赛(STEMA)2023年1月15日真题
  • Qemu-NUC980(二):时钟clock代码添加
  • 驾驶场景玩手机识别:陌讯行为特征融合算法误检率↓76% 实战解析
  • 如何修复非json数据
  • 兰空图床部署教程
  • 从C++0基础到C++入门(第十五节:switch语句)
  • 工具包:位图格式一键生成可无限放大的矢量图SVG/EPS及CAD文件DXF
  • 我的世界模组开发教程——物品item(1)
  • 建筑施工场景安全帽识别误报率↓79%:陌讯动态融合算法实战解析
  • 深入 Vue v-model
  • SpringBoot启动项目详解
  • MC0351区间询问和
  • MybatisPlus-自动生成代码
  • 【走遍美国精讲笔记】第 1 课:林登大街 46 号
  • 深入 Go 底层原理(四):GMP 模型深度解析
  • 编译器与解释器:核心原理与工程实践
  • Linux I/O 系统调用完整对比分析
  • linux source命令使用详细介绍
  • [qt]QTreeWidget使用
  • JAVA国际版同城服务同城信息同城任务发布平台APP源码Android + IOS
  • 【设计模式】 原则
  • AI驱动SEO关键词智能进化
  • 具身智能VLA困于“数据泥潭”,人类活动视频数据是否是“破局之钥”?