当前位置：首页 > news >正文

ECCV 2020 | 动态图像在3D MRI图像阿尔茨海默病分类中的应用

news 2025/8/22 6:35:10

摘要

我们建议将2D CNN结构应用于3D MRI图像中的阿尔茨海默病分类。训练3D卷积神经网络(CNN)既耗时又计算昂贵。我们利用近似秩池化将3D MRI图像体积转换为2D图像，以用作2D CNN的输入。我们展示了我们提出的CNN模型比基线3D模型获得了高出9.5%的阿尔茨海默病分类精度。我们还表明，我们的方法允许有效的训练，与3D CNN模型相比，只需要20%的训练时间。
Code: https://github.com/UkyVision/alzheimer-project

1. 引言

阿尔茨海默病(AD)是美国第六大死因[1]。由于医疗支出、社会福利成本和工资损失，它严重影响了患者家庭和美国医疗保健系统。由于阿尔茨海默病是不可逆转的，早期诊断对于减缓疾病进展至关重要。目前，研究人员正在使用先进的神经成像技术，如磁共振成像(MRI)，来识别AD。核磁共振技术可以生成具有数百万个体素的3D图像。图1显示了认知未受损(CU)和阿尔茨海默病(AD)MRI图像的示例切片。

在这里插入图片描述

图1. CU和AD参与者的MRI样本切片和相应的动态图像。

卷积神经网络在自然图像分类中具有良好的深度学习性能，在医学图像诊断中显示出巨大的潜力。由于MRI图像的体积特性，自然的深度学习模型是3D卷积神经网络(3D CNN)[10]。与2D CNN模型相比，由于输入的高维性，3D CNN模型的计算成本更高，训练时间更长。另一个问题是，目前大多数医学数据集都相对较小。有限的数据使得很难训练一个对未知数据进行高精度泛化的深度网络。为了克服医学图像训练数据有限的问题，转移学习是一种很有吸引力的特征提取方法。然而，预先训练的CNN模型主要是针对2D图像数据集进行训练的。很少有合适的经过预先训练的3D CNN模型。在我们的论文中，我们建议应用近似秩池化[3]来将3D MRI体积转换为高度维度上的2D图像。因此，我们可以使用2D CNN结构来对3D MRI图像进行分类。我们工作的主要贡献如下：

我们提出了一种将3D MRI体积图像转换为2D动态图像的CNN模型作为2D CNN的输入。结合注意力机制，所提出的模型显著提高了阿尔茨海默病MRI诊断的准确性。
分析了颅骨MRI图像对近似秩汇合法的影响，结果表明，近似秩汇合法对颅骨引入的噪声比较敏感。在使用动态图像技术之前，需要对头骨进行条纹处理。

2. 相关工作

基于学习的阿尔茨海默病(AD)研究根据输入类型主要分为两个分支：(1)人工选择感兴趣区域(ROI)输入和(2)整幅图像输入。对于ROI模型[6][14]，需要人工选择区域来提取原始脑图像的感兴趣区域作为CNN模型的输入，这是一项耗时的任务。使用整个图像作为输入更为直接和可取。科罗廖夫等人。[11]提出了基于VGGNet和ResNet的两种三维CNN结构，首次证明了人工特征提取步骤不适用于脑MRI图像分类。他们的三维模型被称为3D-VGG和3D-ResNet，被广泛用于三维医学图像分类研究。程等人[4]提出在集成学习策略中使用在MRI图像上训练的多个3D CNN模型来进行AD分类。他们将原始的MRI 3D图像分成多个块(n=27)，然后将每个块转发到独立的3D CNN进行特征提取。然后，对提取的特征进行拼接以进行分类。该算法的性能令人满意，但计算代价和训练时间开销非常大。Yang等人。[18]使用科罗廖夫等人的3D-CNN模型。[11]通过在3D图像上扩展类激活映射(CAM)[20]和基于梯度的CAM[16]，为研究MRI图像中AD分类的可解释性奠定了基础。在我们的工作中，我们使用全脑MRI图像作为输入，使用3D-VGG和3D-ResNet作为基线模型。动态图像首先由梁等人应用于医学图像。[13]用于乳腺癌诊断。采用动态图像的方法，将三维数字化乳腺断层扫描图像转换为动态图像，并与二维乳腺X光图像相结合，用于乳腺癌分类。在我们的工作中，我们提出了将动态图像与注意力机制相结合来进行3D MRI图像分类。

3. 方法

我们对我们的方法进行了详细的讨论。首先，我们概述了高层网络体系结构。其次，我们提供了关于近似秩池化的详细信息。接下来，我们展示了我们的量词结构和注意机制。最后，我们讨论了用于训练的损失函数。

3.1. 模型架构

在这里插入图片描述

图2. 我们的2D CNN模型的体系结构。

图2展示了我们模型的体系结构。将3D MRI图像传递给近似秩池化模块，将3D MRI图像体转换为2D动态图像。以动态图像为输入，应用转移学习进行特征提取。我们利用预先训练好的CNN作为主干特征提取工具。特征提取模型用ImageNet数据集[5]进行了预训练。因为我们使用的输入分辨率比ImageNet训练使用的分辨率低，所以我们只使用了预先训练的CNN的一部分。最后将提取的特征送入小分类器进行诊断预测。在计算机视觉领域广泛使用的注意力机制可以提高CNN模型的性能，因此我们在分类器中嵌入了注意力模块。

3.2. 动态数据

时间秩池化[7][3]最初被提出用于视频动作识别。对于具有T个帧I1，…，IT的视频，该方法通过时间秩池将整个视频压缩成一帧。压缩后的帧称为动态图像。动态图像的构造是基于Fernando等人的[7]。作者使用排名函数来表示视频。ψ(It)∈Rd是视频的各个帧It的特征表示。Vt=1/t∑t τ=1 ψ(Iτ)是截至时间t的特征的时间平均值。Vt由排名分数S(t|d)=<d，Vt>,来衡量，其中d∈Rm是学习参数。通过为平均积累更多的帧，较晚的时间与更大的分数相关联，例如q > t→S(q|d)>S(t|d)，这是排名问题的制约因素。因此，可以使用RankSVM将整个问题表示为一个凸问题：

在这里插入图片描述
在公式(2)中，第一项是在支持向量机中使用的二次正则化，第二项是铰链损耗计数对q > t的错误排名。

RankSVM公式可用于动态图像生成，但运算代价较高。Bilen等人。[3]提出了一种用于动态图像的快速近似秩池化算法：

在这里插入图片描述
其中，ψ(It)=1/t∑t τ=1Iτ是直到时间t的帧的时间平均值，并且αt=2t−T−1是与帧ψ(It)相关联的系数。我们在3D MRI体到2D图像的转换工作中采用了这种近似的秩池化策略。在我们的实现中，3D MRI图像的z维等于视频的时间维。

3.3. 具有注意机制的量词

该分类器是注意机制模块和基本分类器的组合。图3描述了注意机制的结构，它包括四个1×1卷积层。卷积层的前三个激活函数是REU，最后一个卷积层附加了Softmax激活函数。将输入特征图A∈R^H×W×C通过四个卷积层来计算注意掩码S∈R^H×W×1。在注意掩码和输入特征映射之间进行元素相乘，得到最终的输出特征映射O∈R^H×W×C。我们的基本分类器包含三个全连通(FC)层。这三个FC层的输出维度分别为512、64和2。在前两层之后使用丢弃层，dropout概率为0.5。

在这里插入图片描述

图3. CNN模型中的注意机制结构。

3.4. 损失函数

在以往的AD分类研究中，研究者主要集中在二分类上。在我们的工作中，为了便于比较，我们也这样做。总损失函数是二进制交叉熵。对于具有标签l和概率预测p(l|V)的3D图像V，损失函数为：

在这里插入图片描述
其中，标签L=0表示阴性样本，而L=1表示阳性样本。

4. 评估

我们使用了阿尔茨海默病神经成像倡议(ADNI)[2]中公开可用的数据集。具体地说，我们用来自“空间归一化、屏蔽和N3校正的T1图像”类别的数据来训练CNN。脑MRI图像大小为110×110×110。由于一个受试者在数据库中可能有多次MRI扫描，我们使用每个受试者的第一次扫描来避免数据泄漏。数据样本总数为100个，包括51个CU样本和49个AD样本。

CNN是在PyTorch中实现的。我们使用五次交叉验证来更好地评估模型的性能。我们的模型使用的批次是16。基线模型的批次是8，这是在单GTX-1080ti GPU上训练的3D CNN模型的最大批次。我们使用的ADAM优化器的Beta1=0.9，Beta2=0.999。学习率为0.0001。我们训练了150个纪元。为了评估模型的性能，我们使用准确率(ACC)、接收者操作特征曲线下的面积(ROC)、F1分数(F1)、准确率、召回率和平均准确率(AP)作为我们的评估指标。

4.1. 量化结果

高质量的特征提取是最终预测的关键。不同的预先训练的CNN模型可以在大小和有效接受野方面输出不同的特征。我们测试了不同的预先训练的CNN，以找出哪些CNN模型作为我们的特征提取工具表现最好。表1显示了各种CNN模型和相应的输出特征大小。

在这里插入图片描述

表1. 不同的预先训练的CNN模型作为特征提取者和输出特征大小

由于我们的动态图像分辨率为110×110×3，远低于ImageNet数据集的分辨率256×256×3，所以我们只使用了预先训练的CNN的一部分作为特征提取工具。直接使用整个预先训练好的CNN模型作为特征提取工具，会导致输出的特征尺寸太小，从而降低分类性能。在实现中，我们去掉了除MobileNet v2[15]之外的每个预训练模型的最大池层，该模型不包含最大池层。此外，由于自然图像和医学图像之间存在领域鸿沟，我们将预先训练的CNN模型的参数设置为可训练的，以便对模型进行微调以获得更好的性能。

在使用计算机辅助探测器(CADS)分析MRI图像时，从大脑图像中剥离头骨是很常见的。因此，我们首先使用剥离头骨的MRI来测试所提出的方法。该模型以动态图像(Dyn)为输入，以VGG11为特征提取者，采用具有注意机制的分类器：Dyn+VGG11+ATT。整个实验可以分为三个部分：主干和注意力部分、基线模型部分和集合部分。在主干和注意力部分，我们使用了4种不同的预训练模型，并测试了具有和不具有注意机制的主干。

在这里插入图片描述

表2. 以动态图像为输入的不同主干模型的性能结果

根据表2所示的性能，我们选择VGG11作为主干机型。在基线模型部分，我们将我们的方法与3D-VGG和3D-ResNet这两条基线进行了比较。

在这里插入图片描述

表3. 不同2D和3D CNN模型的性能结果

表3显示了不同CNN模型下的性能。与3DResNet相比，该模型的准确率提高了9.52%，ROC提高了15.20%。在合并部分：我们通过用平均合并(Avg.)代替近似秩次合并模块来构造两条基线。层或最大池化(最大)一层。汇聚层在z维度上处理输入的3D图像，并输出与动态图像相同的大小。与相同配置下不同的3D到2D转换方法相比，动态图像的性能优于两种池化方法。

4.2. 预处理重要性评估

在本节中，我们使用原始的MRI图像(包括头骨)作为输入来显示结果。我们在包含头骨的相同患者的原始脑MRI图像上进行实验，以测试我们的模型的性能。原始MRI图像类别为“MT1、GradWarp、N3m”。原始MRI图像大小为176×256×256。

在这里插入图片描述

图4. 带有Cu和AD参与者头骨的MRI样品切片以及相应的动态图像。

图4显示了不同参与者的MRI脑图像与头骨的动态图像。动态图像比颅骨剥离处理后的图像更加模糊。这是因为在动态图像中，可以将头骨的变化视为噪声。表4显示了与颅骨一起使用3D脑MRI图像时的显著性能下降。

在这里插入图片描述

表4. 用头骨在MRI图像上不同的2D和3D CNN模型的性能结果。

图4显示了将头骨包括在图像中如何影响动态图像的视觉表示。在这种情况下，该模型不能充分诊断不同的群体。性能下降的一个潜在原因是，近似秩池模块是一个预处理步骤，并且该模块是不可训练的。我们相信，端到端、可学习的排名池模块将提高性能。

4.3. 模型训练时间

该模型的另一个优点是训练速度更快。我们在同一个输入数据集上为150个纪元训练了所有的CNN模型。表5显示了不同2D和3D CNN模型的总训练时间。与3D-CNN网络相比，提出的模型训练时间约为20%。此外，由于3D卷积层的维度较高，3D卷积层的参数数量自然高于2D卷积层。通过将MobileNet[9]或ShuffleNet[19]应用于医学图像诊断，具有移动应用的潜力。我们使用MobileNet进行实验。我们使用MobileNet v1结构作为特征提取工具，获得了84.84%的准确率，与3D ResNet的准确率相当。
在这里插入图片描述

表5. 不同CNN模型150个时代的总训练时间。

5. 结论

我们提出了一种将3D脑MRI图像转换为2D动态图像的近似秩池化方法，作为预先训练的2D CNN的输入。与3D CNN相比，该模型具有更少的训练时间和9.5%的性能提升。我们在MRI脑图像上进行了训练和评估，发现在应用近似秩池转换之前，脑颅骨条带化预处理是有用的。我们在实验中使用了离线近似秩池化模块，但我们相信在未来探索可学习的时间秩池化模块会很有趣。

查看全文

http://www.dtcms.com/a/342057.html