当前位置: 首页 > news >正文

数据上新 | 专业领域多语种对话语音数据集

目前,语音识别技术仍面临口音多样性、行业术语专业化、语境理解不足等多种挑战。尤其在专业领域应用等场景下,通用的语音识别模型的鲁棒性及准确率都会有明显下降。

数据堂大规模、多语种自然对话数据集,覆盖多个行业,帮助客户提升不同应用场景下语音识别模型的表现力,实现更高效的语音交互体验。

一、自然对话数据集

小语种数据稀缺、且内容多为公开音视频,表达上缺乏自然度,导致模型训练受限。数据堂充分考虑多语种识别模型需求,持续推出数百套小语种自然对话数据集,覆盖30+国家,旨在帮助提升多语种语音识别模型的表现力。

1. 法语自然对话语音数据集

由800余名来自不同地域和文化背景的法国本土人录制,总时长约为1200小时,标注了文本内容、句时间戳、说话人身份、性别等多种属性,准确性高。

2. 马来语自然对话语音数据集

给出话题列表,录音人从中挑选多个自己熟悉的话题以确保对话的流畅。录制多段对话,每段对话不超过30分钟。对涉及到说话人的敏感信息做了标注。

3. 葡萄牙语自然对话语音数据集

包含欧洲葡萄牙语及巴西葡萄牙语。总时长接近800小时,无预制文本,本土录音人以自然方式进行对话,同时录制对话的内容。词准确率达98%。

4. 印地语自然对话语音数据集

数据总时长达1700小时,由2000多名录音人基于常见话题开展对话,其中男女比例平衡,16至25岁人群占比77%。标注文本内容、有效句子的起止时间点、说话人标识等。

5. 意大利语自然对话语音数据集

总时长达1200小时,由意大利本土录音人进行录制,录制环境为室内,安静无回声。涵盖美食、电影、音乐等30多个常见话题。标注说话人的非文本噪声、稳定噪声等特殊标签。

6.西班牙语自然对话语音数据集

包括西班牙西班牙语及墨西哥西班牙语,总时长达1600小时。数据经多家AI公司验证,有助于模型面对真实世界的多样性时能够表现出色。

7. 菲律宾语自然对话语音数据集

录音人根据自己熟悉的话题进行流程的自然对话,每段对话不超过30分钟。录音人均为本土发音人,数据时长为200余小时,文本标注词错误率(WER)低于2%。

8. 日语自然对话语音数据集

数据时长达800多小时,由800余名发音人参与录制,以自然方式进行交流,针对给定的数个话题自由发挥,领域广泛,语音自然流利,符合实际对话场景。人工转写文本,准确率高。

二、专业领域数据集

专业领域识别所需的行业术语及行话往往常规语音数据集中较少出现,导致模型在处理特定内容时准确率较低。同时,行业用户可能存在不同的方言和口音,进一步增加了语音识别的难度。

数据堂自有的专业领域标注口语化数据,涵盖金融、医疗、游戏、客服等多个专业领域,均由具备行业知识背景的母语发言人录制,内容覆盖各领域专业名词及行话,准确率高。

金融领域

1. 英语金融语音数据

录音人来自英国、美国等地,数据时长为200余小时。内容涵盖宏观类金融内容及微观类金融内容。句准确率达95%。

2. 韩语金融语音数据

总时长为200余小时,标注文本内容、有效句子的起止时间、说话人标识、性别、噪音标注、敏感信息标注、实体标注、大小写标注。

3. 德语金融语音数据

内容包括整体经济、市场趋势、金融政策、汇率变动等宏观类金融内容及个体企业、股票、债券、投资组合等微观类金融内容。剔除语音中底噪过高、回声过大等影响语音识别的数据。

4. 西班牙语金融语音数据

录音人来自拉丁美洲国家、西班牙等地,时长达200余小时,内容涵盖各类金融类专业名词。标注文本内容、说话人标识、性别、噪音、敏感信息、人物、地点、金融产品等实体标注。

游戏领域

1. 德语游戏领域语音数据

录音环境覆盖室内、室外、娱乐场所等。内容涵盖该国流行经典头部游戏中的对话语音(如FPS、MOBA、MMORPG等),涵盖玩家商量对战策略、社交互动、电竞类新闻等内容。

2. 英语游戏领域语音数据

数据总时长为200小时,内容覆盖含FPS、MOBA、MMORPG、VR等多种游戏类型。标注文本内容、句时间戳、冒犯言论标注、说话人标识、性别、噪音标注。句准确率 95%。

3. 西班牙语游戏领域语音数据

发音人来自西班牙、墨西哥等地。数据时长达200余小时。针对涉政、涉反、涉宗教种族、辱骂、黄暴等令人不适内容的被影响文字标注为冒犯性言论。

4. 意大利语游戏领域语音数据

数据总时长达100多小时,内容覆盖堡垒之夜、英雄联盟等当地经典热门游戏。标注文本内容、句时间戳、冒犯性言论标注、说话人标识、性别、噪音。

5. 法语游戏领域语音数据

数据总时长达200小时,由多名来自不同地域和文化背景的人员录制,准确性高,易用性强,为语音识别相关研究及应用提供了丰富的资源。

客服领域,数据堂自有数据涵盖零售、房地产、保险、金融、医疗健康、能源、电信等应用场景,覆盖中文、英语、阿拉伯语、葡萄牙语等20+热门语种,内容反映客服场景的术语、口音和情感,可用于智能客服的语音识别技术研发。

数据堂自有版权的语音数据集涵盖医疗领域的自然对话,如医患问诊、医生间的交流等。包含多种疾病的临床表现、诊断结果、治疗方法等。语种多样,口音多样,符合现实世界的丰富场景,实用性强。

三、结语

数据堂致力于为客户构建更高质量、更高准确率的数据,以应对各种挑战,即刻访问官方网站获取数据样例。

原文链接:数据上新 | 专业领域多语种对话语音数据集

相关文章:

  • P63 C++当中的计时
  • 不小心更改了/etc权限为777导致sudo,ssh等软件都无法使用
  • “此电脑”中删除WPS云盘方法(百度网盘通用)
  • 10 【HarmonyOS NEXT】 仿uv-ui组件开发之Avatar头像组件开发教程(一)
  • 为何吹订单?因为特斯拉的销量已遥遥领先,掩耳盗铃之举!
  • 第10章 metasploit(网络安全防御实战--蓝军武器库)
  • 每日一题----------异常处理
  • 【Python运维】实现高效的自动化备份与恢复:Python脚本从入门到实践
  • 数据结构---八大排序
  • Python的学习篇(七)--网页结构
  • 数据清洗与治理:为大模型预训练打造完美数据
  • Python已知后序遍历和中序遍历,求先序遍历
  • 字典树(trie树)详解
  • TCP/IP 5层协议簇:网络层(ICMP协议)
  • 如何学习编程?
  • Windows Server开启审计功能
  • Release of anyui for LVGL v0.27.0
  • grum-与gam-词源故事
  • 【数据分享】1999—2023年我国地级市污染物排放和环境治理数据
  • 【MySQL】数据库基础
  • 网站样式用什么做的/seo关键词排名优化专业公司
  • 网站建设宣传/百度问答首页
  • 手机 上传 Wordpress/外链seo
  • 揭阳市榕城区建设局网站/seo优化实训总结
  • 广西上林县住房城乡建设网站/软文推广有哪些
  • 网站开发 质保金/解析域名网站