当前位置: 首页 > news >正文

LW-CTrans:一种用于三维医学图像分割的轻量级CNN与Transformer混合网络|文献速递-深度学习医疗AI最新文献

Title

题目

LW-CTrans: A lightweight hybrid network of CNN and Transformer for 3Dmedical image segmentation

LW-CTrans:一种用于三维医学图像分割的轻量级CNN与Transformer混合网络

01

文献速递介绍

三维医学图像分割旨在从计算机断层扫描(CT)或磁共振成像(MRI)等扫描中精确勾勒器官、组织和病变区域,这对中风和脑肿瘤等多种疾病的诊断和预后至关重要。然而,手动分割三维医学图像繁琐且耗时,因此临床实践中迫切需要全自动且高效的三维医学分割方法。   近十年来,最流行的医学图像分割方法基于深度学习技术,如弱监督分割(Han等人,2024;Lei等人,2024)、全监督分割(Zhou等人,2021b;Yang等人,2019;Qi等人,2019;Kuang等人,2023)、域适应(Gu等人,2023;Wu等人,2023)、半自动分割(Zhang和Metaxas,2024)和全自动分割(Liu等人,2024a,b;Wang等人,2021a;Cheng等人,2022)。其中,基于卷积神经网络(CNN)的方法(如AttnUNet3D(Islam等人,2019)和nnUNet(Isensee等人,2021))常用于全自动医学图像分割,但卷积操作固有的归纳偏置使其难以建模长程依赖关系(Cohen和Shashua,2017)。最近,以建模全局特征能力著称的Transformer也被广泛应用于医学图像分割,如Dformer(Wu等人,2022b)。自然地,许多研究者致力于探索如何融合CNN和Transformer的优势以实现更优的医学图像分割(Chen等人,2021b;Wang等人,2021b;Zhang等人,2021;Chang等人,2021;Chen等人,2021a;Xie等人,2021b;Gu等人,2022;Li等人,2022;Wang等人,2023)。现有大多数CNN-Transformer混合方法通常采用级联方式结合两者,例如TransUNet(Chen等人,2021b)、CoTr(Xie等人,2021b)和BATFormer(Lin等人,2023)等混合网络先使用CNN编码器提取特征,再将特征输入Transformer编码器建模长程依赖,这种方式缺乏局部与全局特征的有效融合。另一些工作如TransHRNet(Yan等人,2023;Kuang等人,2024)、PHTrans(Liu等人,2022)和FAT-Net(Wu等人,2022a)则使用并行的CNN和Transformer编码器分别提取局部和全局特征。与上述方法不同,UNETR(Hatamizadeh等人,2022)以Transformer为编码器、CNN为解码器。尽管这些方法取得了显著的分割性能,但大多数未探索如何设计统一的混合编码器以在编码器的每个阶段学习不同的有效特征(局部和/或全局特征),使得最优混合网络设计仍是一个开放挑战。因此,本研究将探索如何设计高效的混合编码器以改进三维医学图像分割。   在临床实践中,理想的医学图像分割方法需兼具轻量性和接近最先进水平(SOTA)的分割性能。因此,部分研究者已尝试设计适用于三维医学图像分割的轻量级模型(Zhang等人,2019;Perslev等人,2019;Zhou等人,2021a)。当前大多数轻量级医学图像分割方法基于CNN实现,如LCOVNet(Zhao等人,2021)和ADHDC-Net(Liu等人,2023a),而基于CNN-Transformer混合架构的方法较少,如SlimUNETR(Pang等人,2024)。如图1所示,这些轻量级模型参数极少(小于3M),但在某些任务(如中风病变分割)上的性能仍无法与非轻量级SOTA方法(如nnUNet(Isensee等人,2021))媲美。因此,本研究聚焦于设计一种在保持轻量性的同时实现更优分割性能的混合方法。   在中风和脑肿瘤等真实临床场景中,存在难以精确分割的小病变,而小病变的准确分割在临床实践中至关重要。例如,小中风病变的精确定位可帮助医生指导机械取栓术。然而,大多数现有分割方法难以勾勒这些小病变(见5.2节)。因此,本研究还将开发针对小目标的定制化方法,并将其合理融入所设计的轻量级分割模型中。   本文提出一种新颖的轻量级CNN与Transformer混合网络(LW-CTrans),其以极少参数实现了足够优异的三维医学图像分割性能和良好的小目标分割能力。我们设计轻量级多路径卷积块以捕捉局部信息,并提出基于多视图池化的轻量级Transformer块(MVPFormer)以提升小目标分割性能。为进一步减少参数,在基于CNN的解码器中设计了多阶段特征融合模块。实验结果表明,对于三项三维医学分割任务,LW-CTrans的分割性能优于或可媲美15种SOTA方法,同时参数极少且能有效分割小病变。   以下是本研究的主要贡献总结:   • 提出一种轻量级CNN与Transformer混合网络,包含高效的混合编码器和基于多阶段特征融合的解码器,适用于三维医学图像分割,且能以极少参数实现小目标的良好分割。   • 提出基于CNN的多路径卷积(MPConv)块,可从轴向、冠状面和矢状面视图中以更少参数提取局部信息。   • 提出基于多视图池化的Transformer块(MVPFormer),能以极少参数从多视图中提取全局信息,显著提升小目标分割性能。   • 在三项分割任务和小目标分割上的大量实验验证了其对医学图像分割的有效性和泛化能力,以及处理小目标分割的优势。

Aastract

摘要

Recent models based on convolutional neural network (CNN) and Transformer have achieved the promisingperformance for 3D medical image segmentation. However, these methods cannot segment small targetswell even when equipping large parameters. Therefore, We design a novel lightweight hybrid network thatcombines the strengths of CNN and Transformers (LW-CTrans) and can boost the global and local representationcapability at different stages. Specifically, we first design a dynamic stem that can accommodate images ofvarious resolutions. In the first stage of the hybrid encoder, to capture local features with fewer parameters,we propose a multi-path convolution (MPConv) block. In the middle stages of the hybrid encoder, to learnglobal and local features meantime, we propose a multi-view pooling based Transformer (MVPFormer) whichprojects the 3D feature map onto three 2D subspaces to deal with small objects, and use the MPConv blockfor enhancing local representation learning. In the final stage, to mostly capture global features, only theproposed MVPFormer is used. Finally, to reduce the parameters of the decoder, we propose a multi-stagefeature fusion module. Extensive experiments on 3 public datasets for three tasks: stroke lesion segmentation,pancreas cancer segmentation and brain tumor segmentation, show that the proposed LW-CTrans achievesDices of 62.35±19.51%, 64.69±20.58% and 83.75±15.77% on the 3 datasets, respectively, outperforming 16state-of-the-art methods, and the numbers of parameters (2.08M, 2.14M and 2.21M on 3 datasets, respectively)are smaller than the non-lightweight 3D methods and close to the lightweight methods. Besides, LW-CTransalso achieves the best performance for small lesion segmentation.

基于卷积神经网络(CNN)和Transformer的最新模型在三维医学图像分割中取得了显著性能,但这类方法即使配备大量参数也难以有效分割小目标。为此,我们设计了一种新颖的轻量级混合网络LW-CTrans,融合CNN与Transformer的优势,可在不同阶段增强全局和局部表征能力。具体而言:   - 动态主干模块:首先设计动态主干结构,适配多种分辨率的输入图像。   - 混合编码器阶段:    - 第一阶段:提出多路径卷积(MPConv)块,以更少参数捕捉局部特征。    - 中间阶段:设计基于多视图池化的Transformer(MVPFormer),将三维特征图投影到三个二维子空间以处理小目标,并结合MPConv块强化局部表征学习,实现全局与局部特征的联合提取。    - 最后阶段:仅使用MVPFormer模块,重点捕捉全局特征。   - 解码器优化:提出多阶段特征融合模块,在减少解码器参数的同时提升分割精度。   在3个公共数据集上针对中风病变分割、胰腺癌分割和脑肿瘤分割三项任务的大量实验表明:   - 分割性能:LW-CTrans在三个数据集上的Dice系数分别为62.35±19.51%、64.69±20.58%和83.75±15.77%,优于16种先进方法。   - 参数效率:模型参数规模分别为2.08M、2.14M和2.21M,显著小于非轻量级三维方法,且接近轻量级方法水平。   - 小目标分割优势:尤其在小病变分割任务中表现最佳。   该研究为医学影像中精细结构和小目标的高效分割提供了新方案,兼具高精度与轻量性,适用于临床场景中的实时分析需求。

Method

方法

In this section, we first overview the architecture of our proposedLW-CTrans, and then introduce several key modules in detail.

3.1. Overview

The architecture of the proposed method is illustrated in Fig. 2.Our proposed LW-CTrans is a new variant of the commonly usedUNet containing an hybrid encoder and decoder. The hybrid encodercontains a dynamic stem module which is capable of adapting to inputimages of varying sizes, and a multi-path convolution stage, two hybridstages and a MVPFormer stage to capture features with different scales.The decoder includes a multi-stage feature fusion module and decoderlevels that are symmetrical to Stem in the encoder. To obtain betterfeature representations for targets with different shapes and sizes, weadopt different strategies for representation learning in different stages.

在本节中,我们首先概述所提出的LW-CTrans的架构,然后详细介绍几个关键模块。   ### 3.1 总体架构   所提方法的架构如图2所示。我们提出的LW-CTrans是常用UNet的新变体,包含混合编码器和解码器。   - 混合编码器:    - 动态主干模块:能够适应不同尺寸的输入图像,可捕捉多分辨率特征。    - 多路径卷积阶段、两个混合阶段和MVPFormer阶段:分别用于捕获不同尺度的特征(局部细节、全局上下文及跨视图关联)。   - 解码器:    - 多阶段特征融合模块:融合编码器输出的多尺度特征,提升分割精度。    - 与编码器主干对称的解码器层级:确保特征维度匹配,实现端到端的分割输出。   为针对不同形状和大小的目标(如小病变或大器官)获得更好的特征表示,我们在不同阶段采用不同的表示学习策略:   - 早期阶段(多路径卷积):通过轻量化卷积捕捉局部空间特征。   - 中间阶段(混合阶段):结合CNN的局部建模能力与Transformer的全局依赖建模能力。   - 后期阶段(MVPFormer):利用多视图池化Transformer提取全局特征,强化小目标的特征表达。

Conclusion

结论

In this study, we introduce a novel lightweight hybrid networkcombining CNNs and Transformers for 3D medical image segmentation.Different lightweight blocks are designed for each stage. The proposedMVPFormer learns global information via projecting the 3D featurespace onto three 2D orthogonal planes from Axial, Coronal and Sagittalviews to accurately segment small targets. Multi-stage feature fusion isused to design a lightweight but effective decoder. Experimental resultsacross three segmentation tasks demonstrate that the proposed methodachieves the optimal balance between performance and model complexity among all compared methods. Moreover, it effectively segmentssmall targets, aiding doctors in developing more precise treatmentplans.

在本研究中,我们提出了一种新颖的轻量级混合网络(结合CNN和Transformer)用于3D医学图像分割,并为每个阶段设计了不同的轻量化模块。所提出的MVPFormer通过将3D特征空间从轴向、冠状面和矢状面三个正交2D平面进行投影来学习全局信息,从而精确分割小目标。解码器采用多阶段特征融合策略,构建了轻量但高效的架构。在三个分割任务上的实验结果表明,所提方法在所有对比方法中实现了性能与模型复杂度的最优平衡。此外,该方法能有效分割小目标,辅助医生制定更精准的治疗方案。

Results

结果

5.1. Comparison on three tasks

5.1.1. Results on the AISD dataset for stroke lesion segmentation*Table 1 presents the quantitative results of our proposed methodcompared to 16 baseline methods on the AISD dataset. We can observethat the proposed LW-CTrans achieves a best Dice of 62.35±19.51%,a second-best HD95 of 40.79±48.76 and a best ASSD of 6.88±10.42.Besides, it is evident that 3D methods typically outperform 2D methods,because they better capture the spatial continuity of stroke infarctlesions. The segmentation results of nnFormer and UNETR are not ideal.This is because, although these methods employ a hybrid architecture,the main component is still the TransformerFig. 3 shows the visual examples of stroke lesion segmentationresults yielded by our method and 3 representative baselines on theAISD dataset. We observe that the segmentation results of our proposedmethod closely align with the stroke lesion GTs and exhibit fewer falsenegatives compared to other methods.

 5.1 三项任务的对比  5.1.1 AISD数据集上中风病变分割结果   表1展示了我们提出的方法与16种基线方法在AISD数据集上的定量结果。可以看出,LW-CTrans实现了最佳的Dice系数(62.35±19.51%)、第二优的HD95(40.79±48.76)和最佳的ASSD(6.88±10.42)。此外,3D方法通常优于2D方法,因为它们能更好地捕捉中风梗死病变的空间连续性。nnFormer和UNETR的分割结果并不理想,这是由于这些方法虽采用混合架构,但主体仍以Transformer为主。   图3展示了我们的方法与3种代表性基线方法在AISD数据集上的中风病变分割结果可视化示例。我们观察到,LW-CTrans的分割结果与病变真实标签(GT)高度吻合,且相比其他方法假阴性更少。

Figure

图片

Fig. 1. Dice vs. the number of parameters of 10 state-of-the-art comparison methodsand our proposed method on the AISD dataset for stroke lesion segmentation. ○ and★ denote lightweight and non-lightweight methods, respectively

图1. 在AISD数据集上针对中风病变分割任务,10种先进对比方法与我们提出的方法的Dice系数与参数数量对比。○和★分别表示轻量级和非轻量级方法。

图片

Fig. 2. The architecture of the proposed LW-CTrans. (a) It consists of a hybrid CNN and Transformer encoder, a multi-stage feature fusion module and a decoder. (b) Multi-PathConvolution. (c) Multi-View Pooling Transformer.

图2. 所提出的LW-CTrans网络架构图   (a) 整体架构由CNN与Transformer混合编码器、多阶段特征融合模块和解码器组成。   (b) 多路径卷积(MPConv)模块。   (c) 多视图池化Transformer(MVPFormer)模块。

图片

Fig. 3. Visual examples of segmentation results on the AISD datasets. Each row from top to bottom represents axial, sagittal, coronal, and 3D views, respectively. The red areasrepresent the stroke lesion, and the numbers in parentheses represent the subject-level (3D scan) Dice for stroke lesion segmentation.

图3. AISD数据集上分割结果的可视化示例。从上到下每行分别表示轴向、矢状面、冠状面和三维视图。红色区域表示中风病变,括号中的数字表示中风病变分割的受试者水平(3D扫描)Dice系数。

图片

Fig. 4. Visual examples of segmentation results on the pancreas datasets. Each row from top to bottom represents axial, sagittal, coronal, and 3D views, respectively. The redand green areas represent pancreas and cancer, respectively, and the numbers in parentheses indicate the subject-level (3D scan) average Dice for pancreas and pancreas cancersegmentation.

图4. 胰腺数据集上分割结果的可视化示例。从上到下每行分别为轴向、矢状面、冠状面和三维视图。红色区域表示胰腺,绿色区域表示癌灶,括号中的数字分别为胰腺和胰腺癌分割的受试者水平(3D扫描)平均Dice系数。

图片

Fig. 5. Visual examples of segmentation results on the BraTS2019 datasets. Each row from top to bottom represents axial, sagittal, coronal, and 3D views, respectively. The red,green, and blue areas represent ED, NET, and ET, respectively, and the numbers in parentheses indicate the subject-level (3D scan) average Dice for brain tumor segmentation.

图5. BraTS2019数据集上分割结果的可视化示例。从上到下每行分别为轴向、矢状面、冠状面和三维视图。红色、绿色和蓝色区域分别表示水肿区(ED)、非增强肿瘤核心区(NET)和增强肿瘤区(ET),括号中的数字为脑肿瘤分割的受试者水平(3D扫描)平均Dice系数。

图片

Fig. 6. Boxplots of Dice of our method and other compared methods for the small lesion (lesion volume < 30 mL) and large lesion (lesion volume ≥ 30 mL) of the AISD dataset

图6. 针对AISD数据集中小病变(病变体积<30 mL)和大病变(病变体积≥30 mL),我们的方法与其他对比方法的Dice系数箱线图

图片

Fig. 7. Visual examples of small object segmentation results on three datasets. (a) Visual examples of stroke lesion segmentation results on the AISD dataset. The red regionsdenote stroke lesions and the green lines are the contours of the GT. (b) Visual examples of pancreas cancer segmentation results. The red and green regions denote the cancer andpancreas, respectively. (c) Visual examples of brain tumor segmentation results on the BraTS2019 dataset. The red, green, and blue areas represent ED, NET, and ET, respectively.To highlight the small object segmentation performance, the small objects in the GTs and the corresponding locations in algorithm-segmented result subfigures are pointed out bywhite arrows.

图7. 三个数据集上小目标分割结果的可视化示例   (a)AISD数据集上中风病变分割结果:红色区域为中风病变,绿色线条为真实标签(GT)轮廓。   (b)胰腺癌分割结果:红色和绿色区域分别为癌灶和胰腺。   (c)BraTS2019数据集脑肿瘤分割结果:红色、绿色和蓝色区域分别表示水肿区(ED)、非增强肿瘤核心区(NET)和增强肿瘤区(ET)。   为突出小目标分割性能,真实标签中的小目标区域及算法分割结果中的对应位置以白色箭头标注。

Table

图片

Table 1Comparison to state-of-the-art methods on the AISD dataset. The best and second metrics are highlighted in bold and underlined respectively

表 1 AISD 数据集上与先进方法的对比。最优和次优指标分别以粗体和下划线标注

图片

Table 2Comparison to state-of-the-art methods on Pancreas dataset. The best and second metrics are highlighted in bold and underlined respectively. Average denotes the average resultsof pancreas and cancer.

表 2 胰腺数据集上与先进方法的对比。最优和次优指标分别以粗体和下划线标注。“Average” 表示胰腺和癌灶的平均结果

图片

Table 3Comparison to state-of-the-art methods on the BraTS2019 dataset. The best and second metrics are highlighted in bold and underlined respectively. Average denotes the averageresults of WT, ET and TC

表 3 BraTS2019 数据集上与先进方法的对比。最优和次优指标分别以粗体和下划线标注。“Average” 表示全肿瘤(WT)、增强肿瘤(ET)和肿瘤核心(TC)的平均结果

图片

Table 4Computational complexity of the proposed method and compared methods on the three datasets.

表 4 所提方法与对比方法在三个数据集上的计算复杂度

图片

Table 5Ablation study on the AISD dataset.

表5 AISD数据集上的消融实验

图片

Table 6The results of using the Hybrid module in different positions.

表6 混合模块在不同位置的使用效果

图片

Table 7The results of using different ratios of the channel split in Stage 2 and Stage 3 on theAISD dataset. C denotes CNN, and T denotes Transformer.

表7 AISD数据集上在第2阶段和第3阶段使用不同通道拆分比例的结果。C表示CNN,T表示Transformer。

图片

Table 8The results of using different numbers of CNN blocks and Transformer blocks in theStage 2 and Stage 3. C denotes CNN, and T denotes Transformer

表8 第2阶段和第3阶段使用不同数量CNN块和Transformer块的结果。C表示CNN,T表示Transformer

图片

Table 9Impact of the interaction between MVPFormer and MPConv on the AISD dataset.

表9 AISD数据集上MVPFormer与MPConv交互作用的影响

图片

Table 10Comparison with foundation models on the AISD dataset.

表10 AISD数据集上与基础模型的对比

相关文章:

  • RFID技术在半导体晶圆卡塞盒中的应用方案
  • 计算机可以深度结合、并且很有发展空间的领域
  • 机器学习 day05
  • Git客户端安装、操作
  • Vue3 中使用 provide/inject 实现跨层级组件传值失败的原因及解决方案
  • Vue之入门(Vue是什么以及Vue工作原理)
  • 数据要素如何重构人力资本升级
  • 消息传递--树形dp--50?!
  • windows/linux 模拟鼠标键盘输入
  • 创建型:建造者模式
  • 文件操作和IO—初识文件
  • leetcode hot100:三、解题思路大全:哈希(两数之和、字母异位词分组、最长连续序列)、双指针(移动零、盛最多水的容器、三数之和、接雨水)
  • 《C 语言 sizeof 与 strlen 深度对比:原理、差异与实战陷阱》
  • COMSOL软件入门
  • 爱普生Epson PX-S887打印机信息
  • 不同企业数字化转型补贴差异解析:政策导向下的分层激励模式
  • 从零开始的嵌入式学习day24
  • vmware虚拟机中安装win11系统
  • 开疆智能Profinet转RS485网关连接温度送变器配置案例
  • Ai学习之LangChain框架
  • 神舟二十号航天员乘组将于近日择机实施第一次出舱活动
  • 扬子晚报原副总编辑俞适逝世,享年89岁
  • 痴情与真爱
  • 国家发改委:不断完善稳就业稳经济的政策工具箱,确保必要时能够及时出台实施
  • 新华社原香港分社副社长、深圳市委原副书记秦文俊逝世
  • 以色列媒体:以总理称将接管整个加沙