当前位置：首页 > news >正文

数据推荐｜标贝科技大规模高质量数据集

news 2025/11/14 20:57:47

近期，标贝科技全新发布大批数据产品，包括原生态语音数据集、中英混稀缺文本数据集、语音大模型预训练数据集、多风格合成语音数据集、语音合成评测人工反馈数据集，以助力企业快速实现模型开发与优化，提升AI模型的效果、泛化能力和场景适应性。

01百万小时原生态语音数据集

俄语原始音频数据集

数据为自由交谈原始数据，总时长约60万小时。采样率16K,16Bit，支持mp3，aac，m4a，wav等编码格式。

越南语原始音频数据集

数据总时长约50万小时，含有音频文件及对应完整信息，支持mp3，aac，m4a，wav等编码格式。

英文原始音频数据集

数据总时长约82万小时。包括游戏、音乐、喜剧、教育、科技、体育等15种常见话题。

日语原始音频数据集

数据总时长约10万小时，含有音频文件及对应完整信息。覆盖新闻、商业、健康、教育、艺术、体育、视频博客等20余种类别。

韩语原始音频数据集

数据为总时长约10W小时。话题内容覆盖社会、教育、商业、健康、儿童、爱好、科技、历史等20余种。

中文原始音频数据集

数据总时长约27万小时。覆盖个人成长、人文国学、健康、商业、趣味闲谈等近40种话题。

粤语原始音频数据集

数据总时长约17万小时，包含90万余条音频，覆盖汽车、旅游、娱乐、喜剧、宠物等话题，采样率44K,16Bit。

粤语识别音频数据集

该数据集进行过一次数据清洗，剔除了包含非粤语内容、噪音过大难以分辨语音内容、语音不清晰等质量不佳的音频数据。总时长约6.7万小时，适用于语音识别模型生成字幕。

粤语识别音频数据集（高字准）

数据进行过二次数据清洗，对音频的质量标准进行进一步的严格处理，数据集总时长约3000小时，采样率44K,16Bit，文本信息句正确率达95%。

02 上千万中英混文本语料

包括1000多万条中英混文本数据。类别为txt格式，根据字数不同分为7类，每类文件包含多个条目，每个条目由两行组成，第一行为中英混的文字内容，第二行为对应的拼音标注。

03 数十万小时高质量语音大模型预训练数据集

该数据集涵盖多说话人、多领域类别，涉及各种类型录制场景、背景噪声、说话方式等。总时长约25万+小时，其中中文17万+小时，英文8万+小时。数据均经过严格的数据清洗和处理，中文文本字准率95%，英文文本字准率92%。

04 千人多风格语音合成数据集

该数据集由标贝科技自研的高音质语音合成系统生成。总规模约1000+小时，囊括海量中英混语料，覆盖超百种风格，包含标准普通话、自然口语对话、特色音（御姐音、霸道总裁音、仿蜡笔小新）等多音色及全年龄段声线，以及涵盖高兴、悲伤、愤怒、恐惧等多情感维度。完整还原自然对话、智能客服交互、视频配音等多样化应用场景，适用于情感合成、风格迁移、语音生成模型训练等前沿任务。

05 语音合成评测数据集

该数据集由标贝科技与香港中文大学合作打造，均为语音合成生成数据，包括43805条中文数据、44609条英文数据、10959条中英混数据，总时长约500小时，适用于大模型RLHF方面的研究。

该数据集主要标注两个维度的人工反馈数据：（1）单个音频朗读判断，包含遗漏、多读少读、错读3种情况；（2）两个音频自然度比较，包括声音清晰度、语调饱满、韵律节奏合理、重音位置准确4个维度。评分分为A+2、A+1、无法比较、B+1 、B+2 五档，由两人独立对同一条数据进行评测，结果拟合则完成标注，否则第三人介入。

查看全文

http://www.dtcms.com/a/270155.html