用“循序渐进+分班教学”提升口齿不清者的语音识别
Dysarthric Speech Recognition Using Curriculum Learning and Multi-stream Architecture:用“循序渐进+分班教学”提升口齿不清者的语音识别
你有没有试过听一个人说话,明明他努力在表达,但你就是听不清楚?这种情况在患有**构音障碍(dysarthria)**的人群中非常常见。这种疾病通常由脑损伤或神经系统疾病(如帕金森病、脑瘫)引起,导致发音肌肉无力或失控,使得说话含糊、语速异常、节奏混乱。
对于普通人来说可能只是沟通困难,但对于自动语音识别(ASR)系统而言,这简直是一场“灾难”。现有的主流语音识别模型大多是在清晰、标准的语音数据上训练出来的,面对构音障碍者的语音时,错误率往往高得惊人。
今天我们要解读的这篇发表于 Interspeech 2025 的论文《Dysarthric Speech Recogn