当前位置：首页 > news >正文

细致调优Parakeet-TDT：在Speech Accessibility挑战赛中实现口吃语音识别新突破

news 2025/9/24 6:51:03

细致调优Parakeet-TDT：在Speech Accessibility挑战赛中实现口吃语音识别新突破

论文链接：Fine-tuning Parakeet-TDT for Dysarthric Speech Recognition in the Speech Accessibility Project Challenge
作者：Kaito Takahashi 等｜机构：丰桥技术科学大学（日本）｜发表于 Interspeech 2025

你有没有试过听一个人说话，但总觉得“他好像在说，又好像没说清楚”？这种现象在患有**构音障碍（dysarthria）**的人群中非常常见。这是一种由于神经系统或肌肉控制问题导致的言语不清，表现为发音模糊、语速异常、声音颤抖等。对于普通人来说可能只是“说话不清楚”，但对于自动语音识别（ASR）系统而言，这却是巨大的挑战。

最近，在 Interspeech 2025 的 Speech Accessibility Project 挑战赛中，来自日本丰桥技术科学大学的研究团队提交了一套基于 Parakeet-TDT 模型的语音识别系统，并一举夺得第一名！他们的模型将词错误率（WER）从主办方提供的基线 Whisper large

查看全文

http://www.dtcms.com/a/398043.html