面向运动障碍患者的语音识别新突破:零样本实时专家混合自适应方法详解
面向运动障碍患者的语音识别新突破:零样本实时专家混合自适应方法详解
论文标题:On-the-fly Routing for Zero-shot MoE Speaker Adaptation of Speech Foundation Models for Dysarthric Speech Recognition
发表会议:Interspeech 2025
作者团队:Shujie Hu 等(来自港中文、中科院、加拿大国家研究委员会)
你有没有想过,当一个人因为中风或脑瘫导致说话含糊不清时,现在的语音助手还能听懂他吗?很遗憾,大多数情况下——不能。这类被称为“构音障碍”(dysarthria)的患者,他们的语音在节奏、清晰度和音质上与常人差异巨大,而当前主流的自动语音识别(ASR)系统大多是为健康人群设计的,面对这些特殊用户往往束手无策。
但最近一篇即将在 Interspeech 2025 发表的研究,为我们带来了希望。这篇由港中文团队主导的工作提出了一种全新的零样本、实时运行的专家混合模型(MoE, Mixture of Experts),专门用于提升构音障碍者的语音识别准确率。更厉害的是,它不仅能快速适应新用户的声音,还不需要提前收集大量数据!
今天我们就来深