数据推荐|标贝科技大规模高质量数据集
近期,标贝科技全新发布大批数据产品,包括原生态语音数据集、中英混稀缺文本数据集、语音大模型预训练数据集、多风格合成语音数据集、语音合成评测人工反馈数据集,以助力企业快速实现模型开发与优化,提升AI模型的效果、泛化能力和场景适应性。
01百万小时原生态语音数据集
-
俄语原始音频数据集
数据为自由交谈原始数据,总时长约60万小时。采样率16K,16Bit,支持mp3,aac,m4a,wav等编码格式。
-
越南语原始音频数据集
数据总时长约50万小时,含有音频文件及对应完整信息,支持mp3,aac,m4a,wav等编码格式。
-
英文原始音频数据集
数据总时长约82万小时。包括游戏、音乐、喜剧、教育、科技、体育等15种常见话题。
-
日语原始音频数据集
数据总时长约10万小时,含有音频文件及对应完整信息。覆盖新闻、商业、健康、教育、艺术、体育、视频博客等20余种类别。
-
韩语原始音频数据集
数据为总时长约10W小时。话题内容覆盖社会、教育、商业、健康、儿童、爱好、科技、历史等20余种。
-
中文原始音频数据集
数据总时长约27万小时。覆盖个人成长、人文国学、健康、商业、趣味闲谈等近40种话题。
-
粤语原始音频数据集
数据总时长约17万小时,包含90万余条音频,覆盖汽车、旅游、娱乐、喜剧、宠物等话题,采样率44K,16Bit。
-
粤语识别音频数据集
该数据集进行过一次数据清洗,剔除了包含非粤语内容、噪音过大难以分辨语音内容、语音不清晰等质量不佳的音频数据。总时长约6.7万小时,适用于语音识别模型生成字幕。
-
粤语识别音频数据集(高字准)
数据进行过二次数据清洗,对音频的质量标准进行进一步的严格处理,数据集总时长约3000小时,采样率44K,16Bit,文本信息句正确率达95%。
02 上千万中英混文本语料
包括1000多万条中英混文本数据。类别为txt格式,根据字数不同分为7类,每类文件包含多个条目,每个条目由两行组成,第一行为中英混的文字内容,第二行为对应的拼音标注。
03 数十万小时高质量语音大模型预训练数据集
该数据集涵盖多说话人、多领域类别,涉及各种类型录制场景、背景噪声、说话方式等。总时长约25万+小时,其中中文17万+小时,英文8万+小时。数据均经过严格的数据清洗和处理,中文文本字准率95%,英文文本字准率92%。
04 千人多风格语音合成数据集
该数据集由标贝科技自研的高音质语音合成系统生成。总规模约1000+小时,囊括海量中英混语料,覆盖超百种风格,包含标准普通话、自然口语对话、特色音(御姐音、霸道总裁音、仿蜡笔小新)等多音色及全年龄段声线,以及涵盖高兴、悲伤、愤怒、恐惧等多情感维度。完整还原自然对话、智能客服交互、视频配音等多样化应用场景,适用于情感合成、风格迁移、语音生成模型训练等前沿任务。
05 语音合成评测数据集
该数据集由标贝科技与香港中文大学合作打造,均为语音合成生成数据,包括43805条中文数据、44609条英文数据、10959条中英混数据,总时长约500小时,适用于大模型RLHF方面的研究。
该数据集主要标注两个维度的人工反馈数据:(1)单个音频朗读判断,包含遗漏、多读少读、错读3种情况;(2)两个音频自然度比较,包括声音清晰度、语调饱满、韵律节奏合理、重音位置准确4个维度。评分分为A+2、A+1、无法比较、B+1 、B+2 五档,由两人独立对同一条数据进行评测,结果拟合则完成标注,否则第三人介入。