当前位置: 首页 > news >正文

疾病语音数据集 WAV格式音频

文章目录

      • 2 数据集与预处理
        • 2.1 数据集概述
        • 2.2 各疾病类别数据集明细
        • 2.3 数据预处理:标准化与特征提取
        • 2.4 数据集划分策略
        • 2.3 数据预处理:标准化与特征提取

2 数据集与预处理

2.1 数据集概述

为解决疾病语音识别领域多疾病覆盖不足、缺乏统一对比基准的问题,本文整合了28个跨疾病类型的语音数据集,构建多疾病语音识别基准库。基准库覆盖**言语障碍、神经系统疾病、呼吸系统疾病、罕见病、心理疾病(抑郁症)**等多个医学与心理学领域,既包含帕金森、阿尔茨海默氏症等常见神经系统疾病,也覆盖唇腭裂、肌萎缩侧索硬化症(ALS)等罕见病,还纳入抑郁症这类心理疾病的语音表型。各疾病类别与对应数据集数量为:言语障碍(5个)、构音障碍(4个)、阿尔茨海默氏症(3个)、呼吸音(3个)、帕金森(3个)、心肺音(3个)、抑郁症(3个)、COVID - 19(2个)、唇腭裂(1个)、肌萎缩侧索硬化症(ALS)(1个),另含“(空白)(8个数据集)”作为健康人群匹配对照(采集任务与疾病组一致,用于基线构建)。

2.2 各疾病类别数据集明细

按医学/心理学领域分类,明确每个类别下的数据集名称、采集年份、格式等关键信息:

  • 言语障碍类(5个数据集)
    包含“SLI.zip捷克数据集(2013年)”“UGAkan(2025年)”“Spanish_logrado(2025年,格式无特殊标注)”“UltraPhonix - 20(2019年)”“Ultrax Speech Sound Disorders(2019年)”。数据源于临床言语治疗记录、标准化言语评估任务(如单音节发音、句子朗读),采集场景覆盖医院诊室、专业语音实验室;其中“UGAkan”“Spanish_logrado”为近年更新资源,支持不同语种言语障碍的研究。

  • 构音障碍类(4个数据集)
    包含“TORGO Dataset(2010年)”“RAWDysPech(2024年)”“UASPEECH(2025年)”“EasyCall(无明确年份)”。数据来自构音障碍患者日常交流、指定语音任务(如词语复述、短文朗读)记录;“RAWDysPech”“UASPEECH”为近期发布数据集,可捕捉构音障碍的精细声学特征。

  • 神经系统疾病 - 阿尔茨海默氏症类(3个数据集)
    包含“NCMMSC2021_AD_Competition(2021年)”“Pitt(无明确年份)”“ADReSS-M_2023(2023年)”。数据采集自患者临床随访对话、认知评估语言任务;“ADReSS-M_2023”聚焦阿尔茨海默氏症不同进展阶段的语音变化,支持疾病分期识别研究。

  • 呼吸系统疾病 - 呼吸音类(3个数据集)
    包含“ICBHI 2017挑战赛(2017年,规模1.8GB)”“Coswara_Data(2022年)”“哮喘检测综合(2022年)”。数据类型为肺部呼吸音(如哮鸣音、湿啰音)、哮喘患者呼吸相关语音,采集设备为高灵敏度麦克风、医用听诊器,场景涉及临床检查、家庭监测等。

  • 神经系统疾病 - 帕金森类(3个数据集)
    包含“Parkinson 2017 KCL(2017年)”“Italian_Parkinsons_Voice_and_Speech(2022年)”“Parkinson_ 3700(无明确年份)”。数据来自患者日常对话、标准化语音任务(如元音持续发音、文本朗读),涵盖英语、意大利语等多语种帕金森患者语音,支持跨语言疾病语音研究。

  • 呼吸系统与心肺疾病 - 心肺音类(3个数据集)
    包含“HLS-CMDS(2025年)”“印度肺部音(2021年)”“肺音3200(2021年)”。数据为心肺听诊音(如心音异常、肺部病理性呼吸音),采集于医院病床旁、体检中心,可用于心肺疾病联合声学表型分析。

  • 心理疾病 - 抑郁症类(3个数据集)
    包含“EATD(2022年)”“DAIC-WOZ(2014年)”“E-DAIC(2014年)”。数据来自抑郁症患者与健康对照的对话记录(如临床访谈、标准化心理评估对话),通过语音韵律、情感倾向等特征反映抑郁状态;“DAIC-WOZ”“E-DAIC”为经典抑郁症语音数据集,“EATD”为近年更新资源,丰富了样本多样性。

  • 传染病 - COVID - 19类(2个数据集)
    包含“COVID-19 CNN 咳嗽(2022年)”“COUGHVID V3(规模2.2GB,标注为COUGHVID)”。数据核心为COVID - 19患者咳嗽声,辅以说话声等,采集场景涉及家庭隔离、临床观察,可用于基于咳嗽声学特征的COVID - 19筛查。

  • 罕见病类

    • 唇腭裂(1个数据集):“Cleft数据集(2020年)”,数据来自唇腭裂患者术后的言语、呼吸声音记录,采集于专科口腔医院,用于研究唇腭裂对语音产生的长期影响。
    • 肌萎缩侧索硬化症(ALS)(1个数据集):“Troparion-master.zip(2019年)”,数据为ALS患者疾病进展期的言语、呼吸相关声音,来自专科中心长期随访病例库,病理特征典型。
2.3 数据预处理:标准化与特征提取

为保证跨数据集实验的可复现性输入一致性,对原始数据执行统一预处理流程:

  • 信号处理
    统一将所有语音信号的采样率重采样至( 16\ \text{kHz} ),消除不同数据集采样率差异对模型的影响;采用Wiener滤波进行降噪,抑制环境噪声(如诊室背景音、电子设备干扰、家庭环境噪音等),保留病理语音/生理音的关键特征。
  • 特征提取
    • 针对传统深度学习模型(MLP、CNN):提取20维梅尔频率倒谱系数(MFCC),并计算其一阶、二阶差分,最终形成( 60 )维特征向量(( 20 + 20 + 20 )),以此捕捉语音的时频特性与动态变化,作为模型输入。
    • 针对预训练语音模型(Wav2Vec):直接采用经“采样率统一、Wiener滤波”处理后的原始波形作为输入,利用模型自身的特征提取能力处理时域信号。
2.4 数据集划分策略

为公平评估模型在多疾病任务上的泛化能力,采用分层划分策略:

  • 对样本量充足的疾病类别(如言语障碍、帕金森、抑郁症等),按( 7:1:2 )的比例将数据集划分为训练集、验证集与测试集,确保各类别下的疾病表型、样本分布在不同子集间保持一致。
  • 对罕见病数据集(如唇腭裂、ALS)与小样本数据集,采用**留一法(Leave - One - Out)**进行交叉验证,避免小样本下划分导致的评估偏差。
2.3 数据预处理:标准化与特征提取

为保证跨数据集实验的可复现性输入一致性,对原始数据执行统一预处理流程,具体如下:

  • 信号处理
    统一采用 librosa 库读取音频文件(支持 MP3、WAV 等格式),并将所有语音信号重采样至 ( 16\ \text{kHz} )(与 MFCC 特征提取的采样率保持一致),消除不同数据集采样率差异对模型的影响;采用 Wiener 滤波进行降噪,抑制环境噪声(如诊室背景音、电子设备干扰、家庭环境噪音等),保留病理语音/生理音的关键特征。

  • 特征提取

    • 针对传统深度学习模型(MLP、CNN)
      采用 librosa 库提取梅尔频率倒谱系数(MFCC)及统计特征,具体参数严格遵循 MFCC 配置(MFCCConfig):

      • 核心参数:提取 ( 13 ) 维 MFCC 特征(n_mfcc=13),采用快速傅里叶变换点数为 ( 2048 )(n_fft=2048),帧移为 ( 512 ) 个采样点(hop_length=512),梅尔滤波器数量为 ( 128 )(n_mels=128),频率范围限定为 ( 0 \sim 8000\ \text{Hz} )(fmin=0,fmax=8000)。
      • 统计特征融合:对提取的 13 维 MFCC 特征,按维度计算均值(mfccs_mean)、标准差(mfccs_std)、最大值(mfccs_max)、最小值(mfccs_min),并将四类统计特征串联,形成 ( 13 \times 4 = 52 ) 维特征向量,作为模型输入。
      • 鲁棒性处理:在特征提取过程中记录错误日志(如文件读取失败、格式不兼容等),最终统计有效样本占比(处理成功率);对加载的特征与标签进行维度验证,确保数据完整性。
    • 针对预训练语音模型(Mantis、Wav2Vec)
      直接采用经“采样率统一、Wiener 滤波”处理后的原始波形作为输入,利用模型自身的特征提取能力处理时域信号。

  • 类别不平衡处理
    为缓解部分疾病数据集(如罕见病)的类别不平衡问题,对训练集采用 SMOTE(Synthetic Minority Oversampling Technique)算法进行过采样,通过合成少数类样本平衡各类别比例,提升模型对小众疾病表型的识别能力。


文章转载自:

http://pOYa6IPU.tdmgs.cn
http://LzBXDQGX.tdmgs.cn
http://xgnkFbHj.tdmgs.cn
http://4ZZDW1oZ.tdmgs.cn
http://qHbJoNft.tdmgs.cn
http://aV0iSpF6.tdmgs.cn
http://94IEWnOr.tdmgs.cn
http://yTSjoydB.tdmgs.cn
http://wTrpJIxx.tdmgs.cn
http://YlQpFGHL.tdmgs.cn
http://4CIcPKrq.tdmgs.cn
http://VWBJLFNq.tdmgs.cn
http://MLsQCspO.tdmgs.cn
http://ZKf9xwRy.tdmgs.cn
http://EKS8Hazm.tdmgs.cn
http://fll5aceZ.tdmgs.cn
http://9jfdTCe9.tdmgs.cn
http://ZqNVEoIm.tdmgs.cn
http://eBmXIiQd.tdmgs.cn
http://BRLws6JU.tdmgs.cn
http://thgfEeC0.tdmgs.cn
http://A2MrEXBi.tdmgs.cn
http://lfym7WIh.tdmgs.cn
http://anZEETBW.tdmgs.cn
http://OYzhw0Nn.tdmgs.cn
http://AIzHabvS.tdmgs.cn
http://OyuS2tCk.tdmgs.cn
http://FewY69Hw.tdmgs.cn
http://o9fLSjRQ.tdmgs.cn
http://Go4OimgP.tdmgs.cn
http://www.dtcms.com/a/372759.html

相关文章:

  • 07 下载配置很完善的yum软件源
  • 【PCIe EP 设备入门学习专栏 -- 8.2.2 PCIe EP Controller Register Types 介绍】
  • 排序---冒泡排序(Bubble Sort)
  • C++/QT day8(9.8)
  • 【Linux网络编程】传输层协议-----UDP协议
  • 医疗连续体机器人模块化控制界面设计与Python库应用研究(上)
  • 分享|构建产教融合的一体化人工智能实验室综合解决方案
  • 从固定 px 到响应式:Vue + Vite 项目响应式改造实战,解决前端不适配的问题
  • java面试:了解MVCC么,详细解释一下
  • ChatGPT 协作调优:把 SQL 查询从 5s 优化到 300ms 的全过程
  • 长春高新需要新叙事
  • Python用PSO优化SVM与RBFN在自动驾驶系统仿真、手写数字分类应用研究
  • android studio JNI 环境配置实现 java 调用 c/c++
  • 安卓非原创--基于Android Studio 实现的新闻App
  • Flutter Android Studio开发实用技巧
  • Android Studio适配butterknife遇到的坑
  • 论文精读(五):面向链接预测的知识图谱表示学习方法综述
  • 使用AI工具一句话生成PPT
  • 《嵌入式硬件(五):IMX6ULL所需的基础》
  • Vue响应式更新 vs React状态更新:两种范式的底层逻辑与实践差异
  • Qt UDP 网络编程详解
  • CUPP针对性字典安全防范
  • 用nasm汇编器汇编不同位数格式的ELF
  • odoo打印pdf速度慢问题
  • 京东商品评论 API(JSON 数据返回)核心解析
  • SpringMVC(二)
  • 开始理解大型语言模型(LLM)所需的数学基础
  • 搭论文大纲逻辑乱易跑题?AI 3 步梳理框架,自动串逻辑链
  • C#SqlSugar的简单使用
  • 【军事类】军舰识别检测数据集:3400+图像,4类,yolo标注