面向口齿不清者的语音识别新突破:用大模型拯救“听不懂”的声音
面向口齿不清者的语音识别新突破:用大模型拯救“听不懂”的声音
原文链接:https://www.isca-archive.org/interspeech_2025/aboeitta25_interspeech.html
你有没有试过听一个人说话,明明每个字都发出来了,但就是拼不对、听不清?这种情况在患有构音障碍(dysarthria)的人群中非常常见。这种由于神经系统损伤导致的肌肉控制问题,会让说话变得含糊、缓慢甚至断断续续,给日常生活带来极大不便。
而自动语音识别(ASR),也就是我们常说的“语音转文字”技术,在这类人群面前往往束手无策——传统的语音识别系统会把“我想喝水”听成“我相喝睡”,错误百出,根本没法用。
最近,在即将召开的 Interspeech 2025 国际会议上,来自 MBZUAI 和 Invertible AI 的研究团队发表了一项重要研究:他们尝试将当前最火的大语言模型(LLM)直接融入语音识别系统的解码环节,显著提升了对构音障碍语音的识别准确率。
这项研究不仅做了全面对比实验,还深入分析了不同严重程度患者的表现差异和跨数据集泛化能力。今天我们就来详细解读这篇论文,带你一步步理解:
- 构音障碍语音为什么难识别?
- 研究者们用了哪些模型和技术?
- 实验是怎么设计和执行的?