当前位置: 首页 > news >正文

AISHELL-5 全球首套智能驾舱中文语音交互数据集开源

随着汽车成为人们日常生活中不可或缺的一部分,而驾驶舱中传统的触摸交互方式容易分散驾驶员的注意力,存在安全风险,因此,车内基于语音的交互方式得到重视。与通常家庭或会议场景中的语音识别系统不同,驾驶场景中的系统面临更加独特的挑战,缺乏大规模的公共真实车内数据一直是该领域发展的主要障碍。AISHELL-5是首个开源的真实车载多通道、多说话人中文自动语音识别(ASR)高质量数据集。AISHELL-5的开源加速了智能驾舱内语音交互的相关技术研究,并且希尔贝壳联合西工大音频语音与语言处理研究组(ASLP@NPU)理想汽车发布的AISHELL-5论文成功入INTERSPEECH2025国际会议以下是AISHELL-5数据集的相关介绍。

图片

数据地址:https://www.aishelltech.com/AISHELL_5

图片

图片

  • 论文地址:https://arxiv.org/pdf/2505.23036

  • GitHub:https://github.com/DaiYvhang/AISHELL-5

数据说明

AISHELL-5 共计893.7小时,单通道145.25小时。邀请165名录音人,在真实车内,涉及60+车载场景下录制。录音内容包含对话(706.59H)和噪声(187.11H)两类。拾音点位共计5个:近讲为头戴麦克风(采样率:16kHz,16bit,数据量:215.63H),远讲为驾舱内麦克风(采样率:16kHz,16bit,数据量:490.96H,拾音位:4个音位)。噪声采集由驾舱内麦克风(采样率:16kHz,16bit,数据量:187.11H,拾音位:4个音位)录制。

录制场景示意图:

图片

录制环境设计信息:

图片

实验数据分配如下:

图片

    

试验说明

我们提供了基于该数据集构建的一套开源基线系统。该系统包括一个语音前端模型,利用语音源分离技术从远场信号中提取出每位说话人的清晰语音,以及一个语音识别模块,用于准确转写每位说话人的语音内容。

图片

系统实验结果:

图片

实验结果展示了多种主流ASR 模型在 AISHELL-5 数据集上面临的挑战。AISHELL-5 数据的开源能够推动智驾领域复杂驾舱场景下的语音技术研究

相关文章:

  • 看板会议如何高效进行
  • 编程的本质难点:超越技术层面的五大核心障碍-优雅草卓伊凡
  • 一个n8n构建的能和LLM对话的Agent
  • Cesium1.95中高性能加载1500个点
  • Llama 4开源项目多维分析研究
  • 深入浅出Asp.Net Core MVC应用开发系列-AspNetCore中的日志记录
  • 供应链管理-物流:自动驾驶分为几个级别/L0无自动化/L1驾驶辅助/L2部分自动化/L3有条件自动化/L4高度自动化/L5完全自动化
  • Mybatis逆向工程,动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件
  • XML Group端口详解
  • CANopen转Modbus TCP转换器助生产线智能化升级
  • Numpy7——数学2(矩阵基础,线性方程基础)
  • 图注意力卷积神经网络GAT在无线通信网络拓扑推理中的应用
  • 龙蜥开发者说:我的龙蜥开源之旅 | 第 32 期
  • 【在线五子棋对战】四、MySQL API 使用
  • 代码训练LeetCode(27)接雨水
  • Leetcode 3572. Maximize Y‑Sum by Picking a Triplet of Distinct X‑Values
  • 力扣热题100之二叉树的层序遍历
  • PostgreSQL 数据库技术峰会重庆站回顾|IvorySQL 开源实践与社区生态
  • 商业 |AI超级工厂:“AI+制造”的终极目标?
  • 嵌入式学习之系统编程(十三)数据库
  • 网站建设中企动力/网站推广的目的
  • wordpress系统取消自动更新/乐云seo官网
  • 重庆企业官网建站快速搭建/中国十大电商培训机构
  • 潍坊 营销型网站建设/怎样做一个网页
  • 云南省文化馆网站建设/国外网站
  • 网站banner代码/如何在google上免费推广