用AI修复失语者的声音:大模型如何帮助渐冻人重新“说话”?
用AI修复失语者的声音:大模型如何帮助渐冻人重新“说话”?
原文链接:https://www.isca-archive.org/interspeech_2025/sanchez25_interspeech.html
你有没有想过,如果有一天你说的话别人完全听不懂,那会是什么感觉?对于患有构音障碍(dysarthria) 的人来说,这正是他们每天面临的现实。这种由神经系统疾病(如渐冻症ALS或脑瘫CP)引起的语言障碍,会让说话变得缓慢、含糊不清,甚至完全无法交流。
幸运的是,随着人工智能和语音合成技术的发展,我们正在探索一种新的解决方案——声音重建(voice reconstruction):用AI模型“修复”患者的语音,让他们既能清晰表达,又能保留自己原本的声音特质。
最近,爱丁堡大学的研究者Ariadna Sanchez和Simon King在Interspeech 2025上发表了一项开创性研究:他们尝试使用一个名为 Parler TTS 的大型语音生成模型,来实现对构音障碍患者的声音重建。这是首次有人尝试用大模型做这件事,结果既令人兴奋,也暴露出当前技术的局限。
今天,我们就来深入解读这篇论文,带你一步步理解:
- 什么是“声音重建”?
- 实验是怎么设计的?