疾病语音数据集 WAV格式音频
文章目录
- 2 数据集与预处理
- 2.1 数据集概述
- 2.2 各疾病类别数据集明细
- 2.3 数据预处理:标准化与特征提取
- 2.4 数据集划分策略
- 2.3 数据预处理:标准化与特征提取
2 数据集与预处理
2.1 数据集概述
为解决疾病语音识别领域多疾病覆盖不足、缺乏统一对比基准的问题,本文整合了28个跨疾病类型的语音数据集,构建多疾病语音识别基准库。基准库覆盖**言语障碍、神经系统疾病、呼吸系统疾病、罕见病、心理疾病(抑郁症)**等多个医学与心理学领域,既包含帕金森、阿尔茨海默氏症等常见神经系统疾病,也覆盖唇腭裂、肌萎缩侧索硬化症(ALS)等罕见病,还纳入抑郁症这类心理疾病的语音表型。各疾病类别与对应数据集数量为:言语障碍(5个)、构音障碍(4个)、阿尔茨海默氏症(3个)、呼吸音(3个)、帕金森(3个)、心肺音(3个)、抑郁症(3个)、COVID - 19(2个)、唇腭裂(1个)、肌萎缩侧索硬化症(ALS)(1个),另含“(空白)(8个数据集)”作为健康人群匹配对照(采集任务与疾病组一致,用于基线构建)。
2.2 各疾病类别数据集明细
按医学/心理学领域分类,明确每个类别下的数据集名称、采集年份、格式等关键信息:
-
言语障碍类(5个数据集):
包含“SLI.zip捷克数据集(2013年)”“UGAkan(2025年)”“Spanish_logrado(2025年,格式无特殊标注)”“UltraPhonix - 20(2019年)”“Ultrax Speech Sound Disorders(2019年)”。数据源于临床言语治疗记录、标准化言语评估任务(如单音节发音、句子朗读),采集场景覆盖医院诊室、专业语音实验室;其中“UGAkan”“Spanish_logrado”为近年更新资源,支持不同语种言语障碍的研究。 -
构音障碍类(4个数据集):
包含“TORGO Dataset(2010年)”“RAWDysPech(2024年)”“UASPEECH(2025年)”“EasyCall(无明确年份)”。数据来自构音障碍患者日常交流、指定语音任务(如词语复述、短文朗读)记录;“RAWDysPech”“UASPEECH”为近期发布数据集,可捕捉构音障碍的精细声学特征。 -
神经系统疾病 - 阿尔茨海默氏症类(3个数据集):
包含“NCMMSC2021_AD_Competition(2021年)”“Pitt(无明确年份)”“ADReSS-M_2023(2023年)”。数据采集自患者临床随访对话、认知评估语言任务;“ADReSS-M_2023”聚焦阿尔茨海默氏症不同进展阶段的语音变化,支持疾病分期识别研究。 -
呼吸系统疾病 - 呼吸音类(3个数据集):
包含“ICBHI 2017挑战赛(2017年,规模1.8GB)”“Coswara_Data(2022年)”“哮喘检测综合(2022年)”。数据类型为肺部呼吸音(如哮鸣音、湿啰音)、哮喘患者呼吸相关语音,采集设备为高灵敏度麦克风、医用听诊器,场景涉及临床检查、家庭监测等。 -
神经系统疾病 - 帕金森类(3个数据集):
包含“Parkinson 2017 KCL(2017年)”“Italian_Parkinsons_Voice_and_Speech(2022年)”“Parkinson_ 3700(无明确年份)”。数据来自患者日常对话、标准化语音任务(如元音持续发音、文本朗读),涵盖英语、意大利语等多语种帕金森患者语音,支持跨语言疾病语音研究。 -
呼吸系统与心肺疾病 - 心肺音类(3个数据集):
包含“HLS-CMDS(2025年)”“印度肺部音(2021年)”“肺音3200(2021年)”。数据为心肺听诊音(如心音异常、肺部病理性呼吸音),采集于医院病床旁、体检中心,可用于心肺疾病联合声学表型分析。 -
心理疾病 - 抑郁症类(3个数据集):
包含“EATD(2022年)”“DAIC-WOZ(2014年)”“E-DAIC(2014年)”。数据来自抑郁症患者与健康对照的对话记录(如临床访谈、标准化心理评估对话),通过语音韵律、情感倾向等特征反映抑郁状态;“DAIC-WOZ”“E-DAIC”为经典抑郁症语音数据集,“EATD”为近年更新资源,丰富了样本多样性。 -
传染病 - COVID - 19类(2个数据集):
包含“COVID-19 CNN 咳嗽(2022年)”“COUGHVID V3(规模2.2GB,标注为COUGHVID)”。数据核心为COVID - 19患者咳嗽声,辅以说话声等,采集场景涉及家庭隔离、临床观察,可用于基于咳嗽声学特征的COVID - 19筛查。 -
罕见病类:
- 唇腭裂(1个数据集):“Cleft数据集(2020年)”,数据来自唇腭裂患者术后的言语、呼吸声音记录,采集于专科口腔医院,用于研究唇腭裂对语音产生的长期影响。
- 肌萎缩侧索硬化症(ALS)(1个数据集):“Troparion-master.zip(2019年)”,数据为ALS患者疾病进展期的言语、呼吸相关声音,来自专科中心长期随访病例库,病理特征典型。
2.3 数据预处理:标准化与特征提取
为保证跨数据集实验的可复现性与输入一致性,对原始数据执行统一预处理流程:
- 信号处理:
统一将所有语音信号的采样率重采样至( 16\ \text{kHz} ),消除不同数据集采样率差异对模型的影响;采用Wiener滤波进行降噪,抑制环境噪声(如诊室背景音、电子设备干扰、家庭环境噪音等),保留病理语音/生理音的关键特征。 - 特征提取:
- 针对传统深度学习模型(MLP、CNN):提取20维梅尔频率倒谱系数(MFCC),并计算其一阶、二阶差分,最终形成( 60 )维特征向量(( 20 + 20 + 20 )),以此捕捉语音的时频特性与动态变化,作为模型输入。
- 针对预训练语音模型(Wav2Vec):直接采用经“采样率统一、Wiener滤波”处理后的原始波形作为输入,利用模型自身的特征提取能力处理时域信号。
2.4 数据集划分策略
为公平评估模型在多疾病任务上的泛化能力,采用分层划分策略:
- 对样本量充足的疾病类别(如言语障碍、帕金森、抑郁症等),按( 7:1:2 )的比例将数据集划分为训练集、验证集与测试集,确保各类别下的疾病表型、样本分布在不同子集间保持一致。
- 对罕见病数据集(如唇腭裂、ALS)与小样本数据集,采用**留一法(Leave - One - Out)**进行交叉验证,避免小样本下划分导致的评估偏差。
2.3 数据预处理:标准化与特征提取
为保证跨数据集实验的可复现性与输入一致性,对原始数据执行统一预处理流程,具体如下:
-
信号处理:
统一采用 librosa 库读取音频文件(支持 MP3、WAV 等格式),并将所有语音信号重采样至 ( 16\ \text{kHz} )(与 MFCC 特征提取的采样率保持一致),消除不同数据集采样率差异对模型的影响;采用 Wiener 滤波进行降噪,抑制环境噪声(如诊室背景音、电子设备干扰、家庭环境噪音等),保留病理语音/生理音的关键特征。 -
特征提取:
-
针对传统深度学习模型(MLP、CNN):
采用 librosa 库提取梅尔频率倒谱系数(MFCC)及统计特征,具体参数严格遵循 MFCC 配置(MFCCConfig):- 核心参数:提取 ( 13 ) 维 MFCC 特征(n_mfcc=13),采用快速傅里叶变换点数为 ( 2048 )(n_fft=2048),帧移为 ( 512 ) 个采样点(hop_length=512),梅尔滤波器数量为 ( 128 )(n_mels=128),频率范围限定为 ( 0 \sim 8000\ \text{Hz} )(fmin=0,fmax=8000)。
- 统计特征融合:对提取的 13 维 MFCC 特征,按维度计算均值(mfccs_mean)、标准差(mfccs_std)、最大值(mfccs_max)、最小值(mfccs_min),并将四类统计特征串联,形成 ( 13 \times 4 = 52 ) 维特征向量,作为模型输入。
- 鲁棒性处理:在特征提取过程中记录错误日志(如文件读取失败、格式不兼容等),最终统计有效样本占比(处理成功率);对加载的特征与标签进行维度验证,确保数据完整性。
-
针对预训练语音模型(Mantis、Wav2Vec):
直接采用经“采样率统一、Wiener 滤波”处理后的原始波形作为输入,利用模型自身的特征提取能力处理时域信号。
-
-
类别不平衡处理:
为缓解部分疾病数据集(如罕见病)的类别不平衡问题,对训练集采用 SMOTE(Synthetic Minority Oversampling Technique)算法进行过采样,通过合成少数类样本平衡各类别比例,提升模型对小众疾病表型的识别能力。