当前位置: 首页 > news >正文

基于语音合成的数据增强在独立说话人构音障碍严重程度分类中的应用

基于语音合成的数据增强在独立说话人构音障碍严重程度分类中的应用

原文链接:https://www.isca-archive.org/interspeech_2025/kim25w_interspeech.html


引言:让AI更懂“口齿不清”的人——用AI生成语音来帮助诊断语言障碍

你有没有遇到过说话含糊不清、语速缓慢、发音困难的人?他们可能患有构音障碍(Dysarthria),这是一种由神经系统损伤引起的运动性言语障碍。这种病症常见于中风、脑瘫、帕金森病等患者中。

传统上,医生需要通过人工听辨来判断病情的轻重程度,但这种方法耗时耗力且主观性强。近年来,随着人工智能的发展,研究者们开始尝试用机器学习模型自动识别和分类构音障碍的严重程度,从而提升诊断效率与可及性。

然而,一个现实问题是:这类患者的语音数据非常稀少,尤其是当我们要训练一个能适用于所有新患者(即“独立说话人”)的通用模型时,数据不足成了最大瓶颈。

为了解决这个问题,韩国Sogang大学的研究团队在Interspeech 2025会议上提出了一种创新方法:使用语音合成技术进行数据增强,首次将零样本文本转语音(ZS-TTS)和语音转换(VC)模型应用于独立说话人(Speaker-Independent, SI)构音障碍严重度分类任务,并

http://www.dtcms.com/a/389709.html

相关文章:

  • vscode 设置
  • vscode关闭coplit功能
  • ICML 2025|GAPrompt:用于3D视觉模型的几何感知点云提示
  • OCCI使用
  • 如何在命令列将.brd转成.siw
  • 贪心算法应用:欧拉路径(Fleury算法)详解
  • 第13章 时间处理
  • Python 抓包工具有哪些,抓包失败怎么办?(Python 抓包工具清单 + 常见失败原因与逐步排查)
  • 数据库模式演进的利器:Alembic 深度解析
  • 用 JMeter 打通“异步入队 + 网关限流”的高并发压测实践
  • Linux服务器从零开始-服务器安装配置
  • Python第三节基本数据类型详解与使用指南
  • 【indextts2】之四:ubuntu24.04 经常跑满12G 显存、音色与录制关系很大
  • 【学习笔记】稳定币的技术原理与信任逻辑
  • 为 Elasticsearch Ruby Client 引入 ES|QL 查询生成器
  • 平安养老险陕西分公司积极开展“保障金融权益,助力美好生活”金融教育宣传周活动
  • 多线程的特点与同步、互斥锁
  • 将npm run dev 冷启动从 90s 优化到 8.5s的实践
  • 【附源码】基于SSM的小型银行贷款系统设计与实现
  • X-Forwarded-For
  • 中科大DSAI Lab团队多篇论文入选ICCV 2025,推动三维视觉与泛化感知技术突破
  • GitHub 上 Star 数量前 10 的开源项目管理工具
  • axios函数封装
  • NewSQL——核心原理与内部机制
  • 《从 0 到 1 打通网络服务任督二脉:域名、服务器与多站点配置全攻略》​
  • vue3学习日记(十七):动态路由使用解析
  • SpringBoot 启动流程
  • .NET驾驭Word之力:结构化文档元素操作
  • 解密F5负载均衡:优化网络性能的关键
  • 使用 .NET Core 6 Web API 的 RabbitMQ 消息队列