基于文本与声学特征的渐冻症言语障碍严重程度分类研究
基于文本与声学特征的渐冻症言语障碍严重程度分类研究
原文链接:https://www.isca-archive.org/interspeech_2025/ys25_interspeech.html
引言:当说话变得困难——用AI读懂“渐冻人”的声音
你有没有试过听一个口齿不清的人讲话?可能一开始完全听不懂,但如果你熟悉他、知道他在说什么话题,也许能慢慢猜出他的意思。这种现象在肌萎缩侧索硬化症(ALS,俗称“渐冻症”)患者中尤为明显。
随着病情发展,ALS患者的肌肉逐渐失去控制,包括负责说话的口腔和喉部肌肉,导致一种叫做构音障碍(dysarthria)的语言障碍。他们的语音会变得含糊、缓慢甚至无声。目前,医生主要依靠人工评估来判断言语障碍的严重程度,比如让语言治疗师反复聆听并打分。这种方法不仅耗时费力,还容易受到主观因素影响。
那么问题来了:我们能不能用人工智能自动判断ALS患者的说话能力有多差?过去的研究大多聚焦于分析声音本身的声学特征,比如音调、响度、语速等。但最近一项发表在Interspeech 2025上的新研究提出了一个有趣的问题:
如果把病人说的话转成文字,再用AI分析这些文字的“语言特征”,能不能也预测出他们的言语障碍程度?