基于语音合成的数据增强在独立说话人构音障碍严重程度分类中的应用
基于语音合成的数据增强在独立说话人构音障碍严重程度分类中的应用
原文链接:https://www.isca-archive.org/interspeech_2025/kim25w_interspeech.html
引言:让AI更懂“口齿不清”的人——用AI生成语音来帮助诊断语言障碍
你有没有遇到过说话含糊不清、语速缓慢、发音困难的人?他们可能患有构音障碍(Dysarthria),这是一种由神经系统损伤引起的运动性言语障碍。这种病症常见于中风、脑瘫、帕金森病等患者中。
传统上,医生需要通过人工听辨来判断病情的轻重程度,但这种方法耗时耗力且主观性强。近年来,随着人工智能的发展,研究者们开始尝试用机器学习模型自动识别和分类构音障碍的严重程度,从而提升诊断效率与可及性。
然而,一个现实问题是:这类患者的语音数据非常稀少,尤其是当我们要训练一个能适用于所有新患者(即“独立说话人”)的通用模型时,数据不足成了最大瓶颈。
为了解决这个问题,韩国Sogang大学的研究团队在Interspeech 2025会议上提出了一种创新方法:使用语音合成技术进行数据增强,首次将零样本文本转语音(ZS-TTS)和语音转换(VC)模型应用于独立说话人(Speaker-Independent, SI)构音障碍严重度分类任务,并