探索生成式纠错在构音障碍语音识别中的应用
探索生成式纠错在构音障碍语音识别中的应用
论文链接:Exploring Generative Error Correction for Dysarthric Speech Recognition
作者:Moreno La Quatra, Alkis Koudounas 等
会议:Interspeech 2025
引言:当语音助手“听不懂”你说什么
想象一下,你每天都在用 Siri、小爱同学或 Alexa 控制家电、发消息、查天气。但如果你因为中风、脑瘫或帕金森病导致说话含糊不清——这种被称为**构音障碍(dysarthria)**的病症会影响全球数百万人——这些语音助手很可能完全无法理解你。
尽管现代语音识别技术已经非常先进,但在面对构音障碍者时,错误率常常超过 30%,远高于普通人群。这不仅是一个技术问题,更是一个**无障碍访问(accessibility)**的社会议题。
这篇发表于 Interspeech 2025 的论文《探索生成式纠错在构音障碍语音识别中的应用》提出了一种新颖的两阶段解决方案:先让语音识别模型生成多个可能的转录结果,再用大语言模型(LLM)从中“挑出”最合理的那个。这种方法显著提升了识别准确率,在开发集上将词错误率(WER)从 11.6% 降低到 6.4%!