Deep semi-supervised learning for medical image segmentation: A review
概述
-
医学图像分割的重要性:它是计算机辅助诊断(CAD)的关键部分,能帮助医生定位病变、评估治疗效果,减轻医生工作量。
-
深度学习技术的应用:U-Net等网络在医学图像分割中表现优异,近期大型视觉语言模型也展现出潜力。
-
数据稀缺的挑战:医学图像标注数据少(因疾病罕见、隐私问题、标注成本高),导致模型容易过拟合。
-
现有解决方案的局限性:降低模型复杂度、正则化、数据增强等方法效果有限。
-
半监督学习的潜力:通过利用少量标注数据和大量未标注数据,可能缓解数据稀缺问题,包括传统方法(多视图、图模型、生成模型)和深度半监督学习。
现在AI技术(尤其是深度学习)在医学影像分析中很厉害,比如用U-Net这种网络可以自动圈出CT或MRI图像里的肿瘤或器官,帮医生更快诊断。但问题是,训练这些AI需要大量带标注的医疗图片,而现实中这种数据很难搞到——要么因为罕见病例少,要么因为患者隐私保护,而且请专家标注图片又贵又费时间。
目前解决数据少的方法(比如简化AI模型、数据增强)效果一般,所以研究者开始尝试“半监督学习”:让AI既学少量标注数据,也利用大量未标注数据(比如医院里现成的未标记片子),这样可能更省钱又高效。
假设你要教小朋友认动物,但只有几张带标签的猫狗图片(有标注数据),和一堆无标签的动物照片(未标注数据)。传统方法是只反复用那几张带标签的图训练,而深度半监督学习会
-
先用带标签的图教基础规则(比如猫有尖耳朵)。
-
对无标签图片,让模型自己猜标签(伪标签)或发现规律(比如“这两张图耳朵形状一致,可能是同类”)。
-
通过设计更聪明的练习(损失函数)或学习工具(模型结构),让小朋友举一反三,最终认得更准
![[Pasted image 20250702095110.png]]
三个关键假设
平滑假设(保证局部一致性)
相似的输入,应该有相似的输出
如果两个样本(比如两张医学图像)在特征空间里距离很近(比如像素分布、纹理相似),那它们的标签(比如是否患病)也应该相似
聚类假设(保证全局一致性)
同一类别的数据会聚在一起
数据在特征空间中会形成聚类(Cluster),同一聚类内的样本属于同一类别
因此,决策边界(分类的分界线)应该避开高密度区域(即不要穿过聚类中心)
低密度分离假设
分类边界应该位于数据稀疏的地方
聚类假设的强化版,明确要求决策边界不能穿过数据密集区,而要在空白区域。
图像五大分割方法
伪标签法(Pseudo-Labeling)
先用标注数据训练初始模型,然后用该模型对未标注数据预测伪标签(Pseudo-Label),再将这些伪标签加入训练集重新训练模型。
典型方法:
-
自训练(Self-training):模型自己生成伪标签迭代优化。
-
协同训练(Co-training):多个模型互相提供伪标签(如不同视角或模态的数据)。
改进方向:
-
筛选高置信度伪标签(避免错误标签累积)。
-
动态阈值调整(不同类别采用不同置信度阈值)。
-
不确定性估计(剔除不可靠预测)。
优点:简单易实现,计算成本低
缺点:错误伪标签会导致“累积偏差”(误差越来越大)
未来方向:结合不确定性建模、多模型协同优
一致性正则化(Consistency Regularization)
对同一输入施加不同扰动(如噪声、数据增强),要求模型输出保持一致(即预测结果不应因微小变化而剧烈波动)
![[Pasted image 20250702114946.png]]
(1)数据一致性(Data Consistency)
对未标注数据进行不同增强或扰动,强制模型对这些变体给出相同或相似的预测
(2) 模型一致性(Model Consistency)
对模型本身施加约束(如参数扰动、多模型交互),确保不同模型变体的输出一致
(3)任务一致性(Task Consistency)
通过多任务学习或辅助任务(如重建、分类)约束主任务(分割)的一致性。
典型方法:
-
Π-Model:同一图像两次不同增强后预测应一致。
-
Mean Teacher:学生模型和教师模型(EMA平滑版)输出需一致。
-
FixMatch:强增强数据与弱增强数据的预测一致。
改进方向:
-
更强的数据增强策略(如MixUp、CutMix)。
-
自适应一致性权重(不同样本赋予不同重要性)。
优点:避免依赖伪标签,适合噪声多的数据。
缺点:对扰动方式敏感,可能过拟合增强策略。
未来方向:自适应扰动策略、多模态一致性学习。
基于生成对抗网络(GAN)的方法
![[Pasted image 20250702112729.png]]
利用**生成器(Generator)合成逼真数据,判别器(Discriminator)区分真实标注数据和生成数据,通过对抗训练提升分割性能。
典型方法:
-
SegAN:生成器生成分割图,判别器判断其真实性。
-
CycleGAN:跨模态数据转换(如MRI→CT)辅助分割。
改进方向:
-
更稳定的GAN训练(如Wasserstein GAN)。
-
结合半监督损失(如一致性正则化+GAN)。
优点:能生成多样化数据,缓解标注不足问题。
缺点:训练不稳定,计算成本高。
未来方向:轻量化GAN、结合扩散模型(Diffusion Models)。
基于对比学习(Contrastive Learning)的方法
让相似样本(正样本)在特征空间靠近,不相似样本(负样本)远离,从而学习更好的特征表示(之前看过的facenet也是)
高级特征 vs. 低级特征
![[Pasted image 20250702113147.png]]
典型方法:
-
SimCLR:同一图像的不同增强版本作为正样本。
-
MoCo:使用动态记忆库存储负样本。
改进方向:
-
医学图像特异性对比策略(如解剖结构相似性)。
-
减少负样本偏差(医学数据类别不平衡)
优点:特征提取能力强,适合小样本场景。
缺点:需要大量负样本,计算开销大。
未来方向:无负样本对比学习(如BYOL)、跨模态对比
混合方法(Hybrid Methods)
结合上述多种方法(如伪标签+一致性正则化+对比学习),取长补短
典型方法:
-
UPS(Uncertainty-aware Pseudo-labeling and Self-training):伪标签+不确定性估计。
-
CCT(Cross-Consistency Training):一致性+对比学习。
优点:性能通常优于单一方法。
缺点:设计复杂,调参难度大。
未来方向:自动化方法组合(如NAS搜索最优混合策略)。
方法 | 核心思想 | 优点 | 缺点 | 适用场景 |
---|---|---|---|---|
伪标签法 | 模型自生成标签迭代训练 | 简单、计算高效 | 错误标签累积风险 | 标注数据较少但质量高 |
一致性正则化 | 不同扰动下预测应一致 | 避免伪标签偏差 | 依赖数据增强策略 | 数据增强有效的任务(如CT) |
GAN方法 | 生成对抗数据提升泛化能力 | 数据多样性增强 | 训练不稳定、计算成本高 | 需要合成数据的复杂任务 |
对比学习 | 特征空间正负样本分离 | 特征提取能力强 | 需大量负样本、计算量大 | 小样本但需强特征表示的任务 |
混合方法 | 结合多种策略 | 性能通常最优 | 设计复杂、调参难 | 对精度要求极高的任务 |
评估指标
-
Dice系数(Dice Score):
-
衡量预测结果和医生标注的重叠程度(0~1,越接近1越好)。
-
通俗理解:像“考试得分”,90分(Dice=0.9)比70分(Dice=0.7)好。
-
-
Jaccard指数(IoU):
- 类似Dice,但计算方式不同(通常比Dice略低)。
-
平均表面距离(ASD):
-
预测边界和真实边界的平均误差(单位:毫米)。
-
通俗理解:像“测量肿瘤边界的偏差”,误差越小越好。
-
-
95% Hausdorff距离(HD95):
-
剔除5%异常值后的最大边界误差(对噪声更鲁棒)。
-
通俗理解:像“去掉最离谱的错题后,看最差能错多远”。
-
类型 | 代表方法 | 性能表现 | 原因分析 |
---|---|---|---|
单模型 | 自训练(Chen et al. 2022) | 较低 | 易过拟合(标注数据少时,模型“死记硬背”)。 |
多模型 | Mean Teacher、UMCT | 更高、更稳定 | 多模型互相纠错(如教师模型提供稳定伪标签,协同训练多视角学习)。 |
例外 | URPC(单模型+金字塔一致性) | 媲美多模型 | 通过多尺度(多模态???)一致性约束(不同放大倍率的预测需一致),减少偏差。 |