当前位置：首页 > news >正文

预处理越复杂越好？评估脑电预处理在深度学习应用中的作用

news 2025/11/3 22:14:40

摘要

在过去的十年里，深度学习在EEG数据分析中的应用显著增加，展示了比传统统计技术更优越的性能。然而，如果使用处理不当的数据进行训练，深度学习模型可能会表现不佳。虽然预处理对EEG数据分析至关重要，但在深度学习场景中，关于最佳预处理策略尚无共识，这导致了对于达到最佳结果所需预处理程度的不确定性。本研究首次全面探讨了EEG预处理在深度学习应用中的影响，并为未来的研究制定了指导方针。研究评估了不同预处理水平的影响，从原始数据和最小过滤数据到包含自动伪迹去除算法的复杂处理流程；考虑了六种分类任务(眨眼、运动想象、帕金森病、阿尔茨海默病、睡眠剥夺和首发精神病)和四种已建立的EEG架构。通过对4800个训练模型的分析，揭示了每种模型在任务内水平和最大模型在任务间水平上预处理流程之间的统计差异。使用原始数据训练的模型表现始终较差，平均得分排名垫底。此外，模型似乎在使用简单的预处理流程时表现得更好，过于复杂的伪迹处理方法可能反而会影响模型的性能。这些发现表明，EEG伪迹可能会影响深度神经网络的性能和泛化能力。

引言

脑电图(EEG)是一种广泛应用于检测神经活动的非侵入性功能成像技术。它在多个领域中得到了有效应用，包括脑机接口(BCI)、情绪识别、睡眠分期，以及诸如癫痫、帕金森病和阿尔茨海默病等疾病的研究。由于EEG的采集方式，其信噪比(SNR)较低，这是因为生物和非生物伪迹(如眨眼、受试者运动、线路噪声、电极放置不当)共同影响了信号的质量。此外，神经活动本身具有高度非线性的特征，传统的统计技术甚至经典的机器学习方法可能不足以捕捉和建模这种复杂性。

为了增强EEG数据的分析，深度学习(DL)已成为该领域的一种强大新兴工具。作为机器学习的一个子集，深度学习专注于训练人工神经网络，这些网络是受生物启发的系统，包含多个互连的层，对输入数据(通常是多通道EEG记录的一部分)执行线性和非线性操作。这些模型已被证明能够通过学习具有多个抽象层次的数据表征来发现复杂的关系。然而，这种增强的学习能力是以更高的计算量和参数优化为代价的。因此，对更大规模EEG数据集的需求显著增加，催生了大量开源数据集的发布。虽然更多的数据集促进了EEG-DL策略的研究，但与此同时，检查和预处理这些数据所需的时间也显著增加。

EEG数据预处理是一个复杂且耗时的阶段，包含多个步骤。其中一些步骤，如独立成分去除、坏通道检测或剔除坏段，仍然需要专家监督才能达到最佳效果。因此，在处理包含成千上万受试者的大型数据集时，完全手动或半自动的处理流程并不适用。另一方面，自动化流程代表了计算需求与结果质量之间的最佳折衷。例如，像HAPPE和Automagic等软件库可以使用丰富且可定制的流程预处理整个数据集。其他工具，如BIDSAlign，进一步扩展了预处理功能，并允许对多个数据集进行整合，促进了自监督学习等新型DL策略的研究。

EEG数据预处理非常重要，若处理不当，可能会导致模型性能显著下降。然而，尽管过去十年内发表了大量相关研究，但关于EEG数据在DL应用中应进行何种程度的预处理，目前仍未达成共识。根据Roy等人(2019)对154篇将深度学习应用于EEG数据的研究综述，只有少数研究人员(23%)采用了包含伪迹处理在内的全面预处理流程，而大多数(47%)选择了最小预处理。此外，还有一部分研究人员(15%)直接将原始数据输入模型，有时取得了与预处理场景相似甚至更好的结果。这些数据反映了一个普遍观点，即使使用原始或最小预处理的数据，模型仍能学习到有效的特征，从而减少了对领域特定处理的需求。

总的来说，本研究旨在深入探讨EEG预处理在DL应用中的作用，考虑了六种分类任务(包括临床和非临床任务)和四种已建立的EEG-DL架构。首先，研究了原始数据的作用，探讨了是否可以有效地将原始数据输入DL模型而不失去预测能力。其次，比较了不同复杂程度的预处理流程，从最小过滤到包含伪迹处理自动化方法的更复杂预处理流程。最后，本研究对于希望了解EEG预处理在特定研究领域中作用的研究人员也具有一定的参考价值。

方法

数据集选择

数据集的纳入标准如下：

--开放访问：所有数据集必须在其各自的OpenNeuro网页上公开可用。

--原始数据：数据应为原始数据，以便逐步应用预处理步骤。

--通道数量：根据美国临床神经生理学会(ACNS)指南，最低要求为19个通道，再加上A1-A2用于对侧参考。

此外，选择的数据集代表了多种EEG任务：

--Eye：睁眼和闭眼的记录。

--MMI：运动想象，一种广泛应用于脑机接口(BCI)的任务。

--Parkinson、FEP、Alzheimer：针对相关医学用例的病理分类，包括帕金森病、首发精神病和阿尔茨海默病。

--Sleep：正常睡眠与睡眠剥夺的识别。

使用的数据集和任务总结见表1。接下来将简要描述所使用的数据集。

表1.本研究中选择的数据集和任务。

1)Eye-ds004148：

该数据集包含60名健康受试者(年龄20.0±1.9岁)的静息(闭眼、睁眼)和认知状态(减法、音乐、记忆)记录。所有受试者都有三个session，其中包含所有任务的执行。本研究仅考虑第一次session中的闭眼和睁眼记录(持续时间5.0±0.0分钟)。

2)MMI-ds004362：

该数据集包含109名健康受试者(年龄39±11岁)的静息、想象和实际运动记录。所有受试者都有一个session(持续时间1.9±0.4分钟)，包含14个任务：两个是静息，其余12个是四个任务的三次重复。

--任务1：张开和紧握左手或右手的拳头；

--任务2：想象张开和紧握左手或右手的拳头；

--任务3：张开和紧握双拳或双脚；

--任务4：想象张开和紧握双拳或双脚。

该数据集用于执行MMI任务，因此仅考虑任务2。ID为88、92和100的受试者因采样率不同和试次长度不一致而被排除在分析之外。

3)帕金森病-ds002778：

该数据集包含15名帕金森病患者和16名年龄匹配的健康对照者(分别为63.3±8.2岁和63.5±9.7岁)的睁眼静息EEG记录(持续时间3.3±0.3分钟)。健康受试者只有一个session，而帕金森病患者有两个session：一个名为‘ses-off’，包含患者在实验前至少停药12小时后的记录；另一个名为‘ses-on’，包含患者在用药期间的记录。该数据集用于执行‘对照’vs‘帕金森-off’任务，因此只考虑帕金森病患者的‘ses-off’实验数据。

4)帕金森病-ds003490：

该数据集包含25名帕金森病患者和25名年龄匹配的健康对照者(分别为69.7±8.7岁和69.3±9.6岁)的睁眼/闭眼静息以及听觉oddball EEG记录(持续时间9.9±1.2分钟)。健康受试者只有一个session，而帕金森病患者有两个session：其中一个session为患者在实验前至少停药15小时后的记录，另一个session是患者在用药期间的记录。该数据集用于执行‘对照’vs‘帕金森-off’任务，因此仅考虑帕金森病患者的一个session，并结合数据集ds002778的数据。

5)阿尔茨海默病-ds004504：

该数据集包含36名阿尔茨海默病患者、23名诊断为额颞叶痴呆的受试者和29名年龄匹配的健康对照者(分别为66.4±7.9岁、63.7±8.2岁和67.9±5.4岁)的闭眼静息EEG记录(持续时间13.4±2.3分钟)。该数据集用于执行‘对照’vs‘阿尔茨海默病’vs‘额颞叶痴呆’任务。

6)睡眠-ds004902：

该数据集包含71名健康受试者(年龄20.0±1.4岁)的睁眼静息EEG记录。所有受试者都有两个session(持续时间4.9±0.4分钟)，一个是睡眠剥夺状态，另一个是正常睡眠状态。并非所有受试者都有闭眼记录，因此仅使用睁眼记录。该数据集用于执行‘正常’vs‘睡眠剥夺’任务。

7)首发精神病-ds003947：

该数据集包含31名首发精神分裂症(FESz)受试者和30名年龄匹配的健康对照者(分别为23.4±4.7岁和24.2±5.1岁)的睁眼静息EEG记录(持续时间5.2±0.2分钟)。该数据集用于执行‘对照’vs‘首发精神病’任务。

数据预处理

所有选定的数据集记录均使用四种不同的预处理流程进行了预处理，这些流程结合了医学和深度学习领域常用的EEG预处理步骤。这些流程在BIDSAlign1中实现，BIDSAlign1是一个基于EEGLAB的可定制MATLAB库，旨在根据复杂性、计算需求和对数据的影响逐步添加预处理步骤。表2总结了名为‘Raw’、‘Filt’、‘ICA’和‘ICA+ASR’的四种流程。

表2.本研究中考虑的预处理流程。

实现细节

使用SelfEEG2对模型进行训练，这是一个基于Pytorch构建的EEG-DL应用库；统计分析依赖于Scipy框架，图表则使用Seaborn和statannotations生成。实验在两台NVIDIA Tesla V100 GPU(CUDA 12.1)设备上并行训练多个模型。

1)EEG架构

使用了四种不同的已建立的EEG-DL架构，即：EEGNet、ShallowConvNet、DeepConvNet和FBCNet。选择这些模型时考虑了多个因素，例如它们在研究社区中的整体使用情况及其计算需求(例如，层数和参数、训练时间、GPU占用率)。所有模型都由一系列层组成，其中包括使用水平或垂直卷积核进行卷积运算，这些卷积核分别在时间(EEG样本)和空间(EEG通道)维度上进行计算。水平卷积核能够提取与伪迹或振荡活动相关的时间模式，而垂直卷积核则找到反映大脑激活的通道线性组合。此外，FBCNet还包含一个滤波器组合层。该层特别适用于本研究，因为某些伪迹处理步骤(如IC拒绝)可能会显著影响特定频段(如δ[0.1-4]Hz，低γ[30-45]Hz)内的功率谱密度。

2)数据划分

EEG数据通常具有较高的个体间变异性。训练过程可能会导致模型的嵌入特征被个体特定的特征主导，从而产生误导性的结果：对于已见过的个体数据上表现极好，但在未见过的个体上表现较差。然而，大多数现实世界的应用都期望模型能在未见过的个体数据上使用，这就是为什么最近的研究强调个体间评估的重要性，例如Leave-N-Subjects-Out(LNSO)和Leave-One-Subject-Out(LOSO；当N=1时)。LNSO是一种交叉验证方法，它在个体层面划分数据集，将某个个体的所有样本分配到训练集或验证集中。该过程为新个体提供了一个独立于个体的性能评估，更好地反映了现实世界的应用。

为了进一步扩展LNSO程序以适应DL应用，本研究提出了一种嵌套的Leave-N-Subjects-Out(N-LNSO)交叉验证，如图1所示。简而言之，N-LNSO结合了两个嵌套的LNSO。第一个LNSO创建了一组外部折叠，将样本分配为测试集，而第二个LNSO则重复将剩余的样本划分为训练集和验证集，确定内部折叠的数量。每个内部折叠都会训练一个模型，并在相应的外部折叠测试集上进行评估。该过程对每个外部折叠重复进行，总共产生Nouter×Ninner个训练实例。通过这种方式，确保每个样本至少参与一次每个划分(训练、验证和测试)。需要注意的是，虽然经典的嵌套K折交叉验证用于在模型选择程序下嵌套超参数优化程序，但N-LNSO的目标是更好地估计模型在未见过样本上的性能分布，并为后续的统计分析提供一个无偏的中心性度量(使用测试集)。

图1.嵌套LNSO交叉验证示意图。

在本研究中，外部折叠的数量为Nouter=10，内部折叠的数量为Ninner=5。考虑到预处理管道的数量Npipeline=4，模型数量Nmodel=4和任务数量Ntask=6，总的训练次数为：

一旦分配到特定集合，EEG记录被划分为每4s的非重叠窗口。选择此时长是为了匹配MMI试次的长度(4.1s)，便于在任务间更准确地比较结果。如果记录的最后部分不足以生成另一个样本，则将其丢弃。因此，考虑到重采样和模板对齐步骤已包含在每个预处理管道中，输入维度为61×500(对于运动想象，输入维度为61×512)。每个数据集(任务)及其总样本数的更多信息详见表1。

3)训练超参数

整个实验使用自定义种子(83136297)进行，以提高结果的可重现性。每个模型使用Pytorch的默认设置进行初始化，这些设置特定于每种类型的层。模型架构与原作者提出的架构一致，唯一不同的是没有使用最大范数约束。模型使用Adam优化器(β1=0.9，β2=0.999，无权重衰减)、批量大小为64、交叉熵损失函数和指数学习率调度器(γ=0.995)进行训练。最大epoch数设置为100，并配合使用耐心值为25个epoch的早停策略(监控验证损失)。由于不同的模型具有不同的学习曲线，这些曲线也可能因研究任务而异，因此为每个可能的组合(任务，模型)选择了自定义的学习率，并在所有管道中保持一致。学习率通过评估模型子集在验证集上的一致性来选择，在13个可能值的离散网格上搜索：1.0⋅10−3，7.5⋅10−4，5.0⋅10−4，2.5⋅10−4，1.0⋅10−5，7.5⋅10−5，5.0⋅10−5，2.5⋅10−5，1.0⋅10−6。使用的学习率列于表3中。

表3.学习率网格。

4)性能评估

每个模型的性能通过平衡准确率进行评估，相较于不平衡准确率，平衡准确率在生物医学应用中更为常用，因为它考虑了类别比例的差异。根据定义，平衡准确率是每个类别召回率的宏观平均值，因此对于一个具有C个类别的多分类问题，平衡准确率计算如下：

其中TPi和FNi分别代表类别i的真阳性和假阴性。其他指标(如召回率、精度和F1分数)的统计分析详见补充材料。

统计分析

通过使用之前描述的嵌套Leave-N-Subjects-Out策略将数据集重复划分为不同的训练集、验证集和测试集，最终得到一组训练好的模型。具体而言，每个任务都有200个经过训练的模型，每50个模型为一组(一个N-LNSO)，在四种预处理管道上进行评估。

在单个任务中，四种管道的分布结果通过Wilcoxon符号秩检验进行两两比较。由于来自同一数据集但经过不同预处理后得到的分类结果是相关的，因此Wilcoxon检验优于Mann-Whitney U检验。p值在同一任务内使用Holm方法进行多重比较校正，并与箱线图一起在图2中展示。

图2.显示了6个任务在4种预处理管道下的平衡准确率。

中位平衡准确率用于测量50个模型性能分布的中心性，因为当分布非正态或偏态时，中位平衡准确率优于样本均值。采用Friedmann非参数检验评估四个管道之间的中位数差异；具体来说，它会对每个数据集的预处理管道进行排名，表现最好的管道排名为1，次之排名为2，依此类推。核心思想是利用与一个或多个数据集相关联的不同任务作为证据，证明管道对分类结果有影响。Friedmann检验不依赖于单因素ANOVA的假设，后者是其参数化对应方法。因此，它不假设样本来自正态分布(图2B-I中的帕金森任务不满足此假设)，也不假设球形性(图2C-I中的阿尔茨海默任务不满足此假设)。此过程使用上一节中描述的四种不同的深度神经网络架构重复进行。

结果

研究发现，所研究的预处理管道在任务内和任务间水平上均存在差异。所有4800个训练模型的平衡准确率如图2所示。结果分为四个子图展示，分别对应四种深度学习架构：A-EEGNet、B-ShallowNet、C-DeepConvNet和D-FBCNet。在任务内分析层面上，接下来仅讨论Wilcoxon检验中具有强显著性(p＜0.001)的结果。

EEGNet

图2A I-II展示了EEGNet的结果。Wilcoxon检验显示，在Eye、Parkinson和Alzheimer任务中，Raw管道的表现显著差于其他三个管道；在MMI任务中，Raw和Filt的表现优于其他管道；在Sleep和FEP任务中，没有显著差异。Friedman统计量χF2=1.8未显示显著结果(p=0.61，基于χ2假设)。四个管道的平均排名为：RRaw=2.83、RFilt=2、RICA=2.33和RICA+ASR=2.83，其中Filt表现最佳。此外，平均排名差异最大的是RFilt-Raw=RFilt-ICA+ASR=0.83，表示Filt相比于Raw和ICA+ASR有明显的优势。

ShallowNet

图2B I-II展示了ShallowNet的结果。Wilcoxon检验显示，在Eye、Parkinson和Alzheimer任务中，Raw管道的表现显著差于其他三个管道；在MMI和FEP任务中，Raw和Filt的表现优于其他管道；在Sleep任务中，ICA的表现优于其他管道。Friedman统计量χF2=4.2显示无显著结果(p=0.24，基于χ2假设)。四个管道的平均排名为：RRaw=3.33、RFilt=1.83、RICA=2.33和RICA+ASR=2.5，其中Filt表现最佳。平均排名差异最大的是RFilt-Raw=1.5。

DeepConvNet

图2C I-II展示了DeepConvNet的结果。Wilcoxon检验显示，在Eye、Parkinson和Alzheimer任务中，Raw管道的表现显著低于其他三个管道；在MMI和FEP任务中，Raw和Filt的表现优于其他管道；在FEP任务中，Filt的表现优于其他管道；在Sleep任务中没有显著差异。Friedman统计量χF2=9.0显示在α=0.05水平上具有统计显著性(p=0.029，基于χ2假设)。四个管道的平均排名为：RRaw=3.17、RFilt=1.17、RICA=3.0和RICA+ASR=2.67，其中Filt表现最佳。平均排名差异最大的是RFilt-Raw=2。

FBCNet

图2D I-II展示了FBCNet的结果。Wilcoxon检验显示，在Eye和Parkinson任务中，Raw管道的表现显著低于其他三个管道；在MMI任务中，Raw和Filt的表现优于其他管道；在Parkinson任务中，ICA的表现优于其他管道，并且在Sleep任务中优于Raw和Filt管道；在FEP任务中，Raw比ICA和ICA+ASR表现更好；在Alzheimer任务中没有显著差异。Friedman统计量χF2=3.8显示无显著结果(p=0.28，基于χ2假设)。四个管道的平均排名为：RRaw=3、RFilt=1.67、RICA=2.83和RICA+ASR=2.5，其中Filt表现最佳。平均排名差异最大的是RFilt-Raw=1.33。

结论

本研究探讨了预处理在EEG-DL应用中的重要性，分析了四种复杂度不同的预处理方法(Raw、Filt、ICA、ICA+ASR)，涵盖从原始数据和最小过滤数据到包含自动伪迹处理算法的复杂管道。研究基于六个具有代表性的临床和非临床用例，并使用四种已建立的EEG-DL架构进行分析。通过无偏交叉验证策略(嵌套Leave-N-Subjects-Out)收集了4800个训练实例的性能指标，以识别任务内和任务间的统计差异。在所有模型中，任务内层面上预处理管道之间存在显著差异，而任务间差异仅在最大规模的模型DeepConvNet中显现。分析进一步表明，使用原始数据训练的模型普遍表现较差，平均排名最低，而使用最小预处理且未进行伪迹处理的数据训练的模型平均排名最高。尽管Filt管道在大多数情况下的性能优于其他管道，但预处理方法的选择应根据具体任务的需求谨慎决策。

参考文献：F. Del Pup, A. Zanola, L. Fabrice Tshimanga, A. Bertoldo and M. Atzori, “The More, the Better? Evaluating the Role of EEG Preprocessing for Deep Learning Applications,” in IEEE Transactions on Neural Systems and Rehabilitation Engineering, vol. 33, pp. 1061-1070, 2025, doi: 10.1109/TNSRE.2025.3547616.

小伙伴们关注茗创科技，将第一时间收到精彩内容推送哦～