当前位置：首页 > news >正文

Speech Databases of Typical Children and Children with SLI 数据集解读

news 2025/8/13 11:00:53

这个数据集是用于研究典型儿童和特定语言障碍（SLI）儿童言语的数据库，组织方式与研究设计相关，以下从数据集背景理解其组织逻辑：

整体框架

数据集分健康儿童言语数据库（H - CH）和SLI儿童病理言语数据库（SLI - CH I、SLI - CH II ），前者作为对照，后两者针对患病儿童不同研究需求。

文件夹层级含义

Patients下的P8 - P14等：代表不同受试儿童分组，可对应论文里不同数据库（如H - CH、SLI - CH I、SLI - CH II ）下的受试对象集合，每个“P + 数字”可能是一批儿童的归类。
P12下的01SAMOHL、02SOUHL等子文件夹：结合论文中“对个体儿童多次录音，用于对比治疗过程”，这些子文件夹可能是对单个儿童（或有特定特征儿童）的细化分组，用于记录其不同阶段、不同任务的言语数据，方便追踪观察（比如01 - 07可能对应不同测试场景、治疗阶段的录音分类）。

文件命名与内容关联

右侧“4mja1a.lbl”“4mja1a.wav”等，“wav”是音频文件，存储儿童言语录音；“lbl”可能是标注文件，记录与音频对应的语音内容、发音标注、病理特征标注等信息（结合论文中对言语分析需标注错误发音、病理特征等，用于后续医学研究、语言学分析），文件名里的“4mja1a”等编码，应是对应左侧P12等分组下，具体儿童、具体测试场景的唯一标识，关联起音频与元数据（如属于哪个儿童、哪种测试任务）。

简单说，就是先按儿童是否患病、患病程度等宏观分组（P8 - P14 ），再对组内儿童按个体/测试场景细分（01SAMOHL等子文件夹），最后用成对的音频 + 标注文件，存储和描述具体言语数据，服务于医学（病理分析）、语言学（言语特征研究）等研究需求。若想更精准，得结合论文里各数据库具体受试信息、测试流程，对应看文件夹编码规则，不过现有信息能解释到这层逻辑啦～

查看全文

http://www.dtcms.com/a/326158.html