当前位置：首页 > news >正文

基于语音合成的数据增强在独立说话人构音障碍严重程度分类中的应用

news 2025/9/19 8:44:32

原文链接：https://www.isca-archive.org/interspeech_2025/kim25w_interspeech.html

你有没有遇到过说话含糊不清、语速缓慢、发音困难的人？他们可能患有构音障碍（Dysarthria），这是一种由神经系统损伤引起的运动性言语障碍。这种病症常见于中风、脑瘫、帕金森病等患者中。

传统上，医生需要通过人工听辨来判断病情的轻重程度，但这种方法耗时耗力且主观性强。近年来，随着人工智能的发展，研究者们开始尝试用机器学习模型自动识别和分类构音障碍的严重程度，从而提升诊断效率与可及性。

然而，一个现实问题是：这类患者的语音数据非常稀少，尤其是当我们要训练一个能适用于所有新患者（即“独立说话人”）的通用模型时，数据不足成了最大瓶颈。

为了解决这个问题，韩国Sogang大学的研究团队在Interspeech 2025会议上提出了一种创新方法：使用语音合成技术进行数据增强，首次将零样本文本转语音（ZS-TTS）和语音转换（VC）模型应用于独立说话人（Speaker-Independent, SI）构音障碍严重度分类任务，并

vscode 设置

vscode关闭coplit功能

OCCI使用

如何在命令列将.brd转成.siw

第13章时间处理

多线程的特点与同步、互斥锁

X-Forwarded-For

axios函数封装

NewSQL——核心原理与内部机制

SpringBoot 启动流程