【第五章:计算机视觉-项目实战之图像分割实战】1.图像分割理论-(2)图像分割衍生:语义分割、实例分割、弱监督语义分割
第五章:计算机视觉(Computer Vision)- 项目实战之目标检测实战
第一部分:图像分割理论
第二节:图像分割衍生:语义分割、实例分割、弱监督语义分割
在计算机视觉中,图像分割(Image Segmentation)不仅仅停留在“像素级划分”的基础层面,而是逐渐发展出不同的分支方向,以适应不同的任务需求。常见的衍生形式包括 语义分割、实例分割、弱监督语义分割 等。
1. 语义分割(Semantic Segmentation)
定义:将图像中每个像素点分类到一个语义类别,例如“人、车、树、道路”。
特点:
关注的是类别而非具体实例。
同类物体的像素会共享同一个标签。
应用场景:自动驾驶中的道路场景解析、医学影像分割(如肿瘤区域识别)。
代表方法:
FCN (Fully Convolutional Network):首次将卷积网络用于像素级预测。
U-Net:在医学图像中应用广泛,采用“编码器-解码器”对称结构。
DeepLab 系列:引入空洞卷积(Atrous Convolution)提升感受野。
2. 实例分割(Instance Segmentation)
定义:不仅要识别像素属于哪个类别,还要区分同一类别的不同实例。
特点:
每一个目标实例拥有独立的像素掩码。
属于“检测+分割”的综合任务。
应用场景:自动驾驶中区分每一辆车,安防监控中检测人群中的个体。
代表方法:
Mask R-CNN:在 Faster R-CNN 基础上增加了一个分支,用于预测实例掩码。
YOLACT:轻量化的实时实例分割模型。
3. 弱监督语义分割(Weakly Supervised Semantic Segmentation, WSSS)
定义:利用不完整或弱标注数据(如图像级标签、点标注、边界框标注)来训练分割模型。
动机:像素级标注非常昂贵,弱监督分割大幅降低标注成本。
标注形式:
图像级类别标签(仅知道图像中有哪些类别,不知道具体位置)。
边界框标注(仅框出大致位置,不标注每个像素)。
点标注(仅在目标区域打点)。
应用场景:大规模医学影像分割、遥感影像分割。
代表方法:
CAM (Class Activation Map):利用分类网络的激活区域作为伪标签。
AffinityNet、SEAM:通过像素间关系传播标签信息。
4. 三者对比总结
分割类型 | 标注粒度 | 是否区分实例 | 标注成本 | 应用难度 | 代表模型 |
---|---|---|---|---|---|
语义分割 | 像素级 | 否 | 高 | 中 | FCN, U-Net, DeepLab |
实例分割 | 像素级 + 实例 | 是 | 高 | 高 | Mask R-CNN, YOLACT |
弱监督语义分割 | 图像级/点/框 | 否 | 低 | 较高 | CAM, SEAM |
总结:
语义分割 → 关注类别。
实例分割 → 关注类别 + 个体。
弱监督分割 → 降低标注成本,用弱标签训练出语义分割能力。