当前位置: 首页 > news >正文

数据推荐|标贝科技大规模高质量数据集

近期,标贝科技全新发布大批数据产品,包括原生态语音数据集、中英混稀缺文本数据集、语音大模型预训练数据集、多风格合成语音数据集、语音合成评测人工反馈数据集,以助力企业快速实现模型开发与优化,提升AI模型的效果、泛化能力和场景适应性。

01百万小时原生态语音数据集

  • 俄语原始音频数据集

数据为自由交谈原始数据,总时长约60万小时。采样率16K,16Bit,支持mp3,aac,m4a,wav等编码格式。

  • 越南语原始音频数据集

数据总时长约50万小时,含有音频文件及对应完整信息,支持mp3,aac,m4a,wav等编码格式。

  • 英文原始音频数据集

数据总时长约82万小时。包括游戏、音乐、喜剧、教育、科技、体育等15种常见话题。

  • 日语原始音频数据集

数据总时长约10万小时,含有音频文件及对应完整信息。覆盖新闻、商业、健康、教育、艺术、体育、视频博客等20余种类别。

  • 韩语原始音频数据集

数据为总时长约10W小时。话题内容覆盖社会、教育、商业、健康、儿童、爱好、科技、历史等20余种。

  • 中文原始音频数据集

数据总时长约27万小时。覆盖个人成长、人文国学、健康、商业、趣味闲谈等近40种话题。

  • 粤语原始音频数据集

数据总时长约17万小时,包含90万余条音频,覆盖汽车、旅游、娱乐、喜剧、宠物等话题,采样率44K,16Bit。

  • 粤语识别音频数据集

该数据集进行过一次数据清洗,剔除了包含非粤语内容、噪音过大难以分辨语音内容、语音不清晰等质量不佳的音频数据。总时长约6.7万小时,适用于语音识别模型生成字幕。

  • 粤语识别音频数据集(高字准)

数据进行过二次数据清洗,对音频的质量标准进行进一步的严格处理,数据集总时长约3000小时,采样率44K,16Bit,文本信息句正确率达95%。

02 上千万中英混文本语料

包括1000多万条中英混文本数据。类别为txt格式,根据字数不同分为7类,每类文件包含多个条目,每个条目由两行组成,第一行为中英混的文字内容,第二行为对应的拼音标注。

03 数十万小时高质量语音大模型预训练数据集

该数据集涵盖多说话人、多领域类别,涉及各种类型录制场景、背景噪声、说话方式等。总时长约25万+小时,其中中文17万+小时,英文8万+小时。数据均经过严格的数据清洗和处理,中文文本字准率95%,英文文本字准率92%。

04 千人多风格语音合成数据集

该数据集由标贝科技自研的高音质语音合成系统生成。总规模约1000+小时,囊括海量中英混语料,覆盖超百种风格,包含标准普通话、自然口语对话、特色音(御姐音、霸道总裁音、仿蜡笔小新)等多音色及全年龄段声线,以及涵盖高兴、悲伤、愤怒、恐惧等多情感维度。完整还原自然对话、智能客服交互、视频配音等多样化应用场景,适用于情感合成、风格迁移、语音生成模型训练等前沿任务。

05 语音合成评测数据集

该数据集由标贝科技与香港中文大学合作打造,均为语音合成生成数据,包括43805条中文数据、44609条英文数据、10959条中英混数据,总时长约500小时,适用于大模型RLHF方面的研究。

该数据集主要标注两个维度的人工反馈数据:(1)单个音频朗读判断,包含遗漏、多读少读、错读3种情况;(2)两个音频自然度比较,包括声音清晰度、语调饱满、韵律节奏合理、重音位置准确4个维度。评分分为A+2、A+1、无法比较、B+1 、B+2 五档,由两人独立对同一条数据进行评测,结果拟合则完成标注,否则第三人介入。

http://www.dtcms.com/a/270155.html

相关文章:

  • 25.安卓逆向2-frida hook技术-拦截弹框事件(拦截强制更新弹框和解决jadx加载dex文件不全问题)
  • 从0到1搭建ELK日志收集平台
  • 扣子Coze飞书多维表插件参数获取流程
  • 如何利用机器学习(ML)检测异常登录行为
  • 深深浅浅地理解 Python 中的 `Barrier` 对象
  • emscripten编译cocos2dx项目输入框支持中文
  • MySQL 全库表记录统计与空间估算教程
  • 猿人学js逆向比赛第一届第十五题
  • SpringAI学习笔记-MCP服务器简单示例
  • 软考(软件设计师)数据库原理-SQL
  • HTML+JS+CSS制作一个数独游戏
  • CSS揭秘:9.自适应的椭圆
  • 记一次mount point is busy问题排查
  • 数据结构 —— 栈(stack)在算法思维中的巧妙运用
  • C++进阶—二叉树进阶
  • 笔记/TCP/IP四层模型
  • Fence-音视频设备资源同步
  • IT 技术领域创作者三周年纪念日
  • 【CodeTop】每日练习 2025.7.8
  • Java 阻塞队列:7种类型全解析
  • 起重机械的工作循环门限值计算逻辑
  • 容器技术入门与Docker环境部署
  • Ntfs!LfsRestartLogFile函数分析之两次调用Ntfs!LfsReadRestart函数的目的
  • (生活比喻-图文并茂)http2.0和http3.0的队头阻塞,http2.0应用层解决,TCP层存在,3.0就是彻底解决,到底怎么理解区别???
  • AI健康小屋“15分钟服务圈”:如何重构社区健康生态?
  • MyBatis-Plus:深入探索与最佳实践
  • C#,js如何对网页超文本内容按行拆分,选择第A-B个字符返回HTM?
  • stack_queue扩展学习 --- 反向迭代器
  • 戴尔3670装win11和ubuntu双系统踩坑教程
  • 自动驾驶传感器的标定与数据融合