细致调优Parakeet-TDT:在Speech Accessibility挑战赛中实现口吃语音识别新突破
细致调优Parakeet-TDT:在Speech Accessibility挑战赛中实现口吃语音识别新突破
论文链接:Fine-tuning Parakeet-TDT for Dysarthric Speech Recognition in the Speech Accessibility Project Challenge
作者:Kaito Takahashi 等|机构:丰桥技术科学大学(日本)|发表于 Interspeech 2025
你有没有试过听一个人说话,但总觉得“他好像在说,又好像没说清楚”?这种现象在患有**构音障碍(dysarthria)**的人群中非常常见。这是一种由于神经系统或肌肉控制问题导致的言语不清,表现为发音模糊、语速异常、声音颤抖等。对于普通人来说可能只是“说话不清楚”,但对于自动语音识别(ASR)系统而言,这却是巨大的挑战。
最近,在 Interspeech 2025 的 Speech Accessibility Project 挑战赛中,来自日本丰桥技术科学大学的研究团队提交了一套基于 Parakeet-TDT 模型的语音识别系统,并一举夺得第一名!他们的模型将词错误率(WER)从主办方提供的基线 Whisper large