客观与主观评估扩散模型在构音障碍语音增强中的应用
客观与主观评估扩散模型在构音障碍语音增强中的应用
原文链接:Objective and Subjective Evaluation of Diffusion-Based Speech Enhancement for Dysarthric Speech
作者:Dimme de Groot 等 | Interspeech 2025
🌟 引言:当AI听不懂“口齿不清”的人怎么办?
我们每天都在用语音助手、语音输入法、智能客服……但你有没有想过,如果一个人因为脑瘫、帕金森或ALS(渐冻症)导致说话含糊不清——也就是医学上说的构音障碍(dysarthria),这些技术还能正常工作吗?
很遗憾,大多数时候不能。现有的自动语音识别系统(ASR),比如Whisper、Siri、讯飞等,都是基于大量“标准发音”训练出来的,对异常语音的适应能力非常弱。
为了解决这个问题,研究人员开始尝试使用**语音增强技术(Speech Enhancement, SE)来“清理”和“优化”构音障碍者的语音,让它更接近普通人说话的样子。最近几年,一种叫扩散模型(Diffusion Models)**的新方法在图像生成领域大放异彩,现在也被引入到语音处理中。
这篇发表于Interspeech