图像分割介绍
一、图像分割基础认知
1. 定义与本质
图像分割是细粒度像素级分类任务,核心目标是预测目标轮廓,将图像中不同属性的像素划分到对应类别(如 “行人”“天空”“路面” 等),实现 “像素 - 类别” 的精准映射,区别于图像分类(整图标签)和目标检测(框选目标)。
2. 前景与背景划分
- 物体(Things):可数的前景目标,具有明确个体边界(如行人、车辆、动物);
- 事物(Stuff):不可数的背景区域,无个体区分(如天空、草地、路面、墙面)。
3. 应用场景
覆盖多领域实用需求,包括:
- 人像抠图(影视后期、短视频创作);
- 医学组织提取(如 CT/MRI 图像中肿瘤、器官分割);
- 遥感图像分析(土地利用、植被覆盖分类);
- 自动驾驶(道路、行人、障碍物分割);
- 材料图像分析(材料结构、缺陷检测)。
二、图像分割的 “三层境界”(分类体系)
根据分割精度和目标维度,图像分割分为三个层级,核心差异在于 “是否区分个体 ID” 和 “是否覆盖背景类别”:
语义分割:仅区分 “类别属性”,不区分个体(如所有 “行人” 归为同一类)
实例分割:仅关注 “前景目标”,既区分类别,又区分个体 ID(如 “行人 1”“行人 2”)
全景分割:融合语义与实例分割,覆盖全图像素:背景像素有类别,前景像素有类别 + ID
三、核心数据集(标注与规模)
PPT 重点介绍 3 个主流图像分割数据集,均支持语义分割,部分支持实例分割,为模型训练提供标注数据支撑:
1. PASCAL VOC 数据集
- 定位:世界级计算机视觉挑战赛数据集,入门级分割任务常用;
- 类别:4 大类(Household、Animals、Vehicles、Person)+ 20 小类(如 car、cat、bus、bicycle);
- 规模:
- VOC 2007:9963 张图像,24640 个标注目标;
- VOC 2012:23080 张图像,54900 个标注目标;
- 分割专用标注:共 2913 张图(1464 张训练图、1449 张验证图);
- 标注类型:支持语义分割(SegmentationClass)、实例分割(SegmentationObject)。
2. Cityscape 数据集
- 定位:聚焦 “街景场景” 的专业分割数据集,适用于自动驾驶等场景;
- 数据特点:涵盖 50 个城市、春夏秋三季、不同时间段的街景,场景多样性强;
- 类别:30 个类别,按属性分为 flat(道路、人行道)、human(行人、骑行者)、vehicle(汽车、卡车)、construction(建筑、围墙)等 7 组;
- 规模:
- 精细标注:5000 张(2975 张训练、500 张验证、1525 张测试);
- 粗略标注:20000 张;
- 标注类型:支持语义分割、实例分割。
3. COCO 数据集
- 定位:以 “复杂日常场景理解” 为目标,数据复杂度高于 VOC 和 Cityscape;
- 数据特点:选取非标志性场景(Non-iconic images),包含多目标重叠、遮挡等真实场景;
- 类别:共 91 类,以 “人类 4 岁小孩可辨识” 为标准,其中 82 类有超过 5000 个实例(确保训练数据充足);
- 标注类型:支持语义分割、实例分割,兼顾目标检测与关键点检测。
四、语义分割核心评估指标
通过像素级精度和交并比两类指标,量化分割结果的准确性:
1. 像素精度类
Pixel Accuracy(PA,逐像素精度):全图中 “分类正确的像素数” 占 “总像素数” 的比例,公式为:PA=∑i=0k−1∑j=0k−1pij∑i=0k−1pii(k为类别数,pii为类别i被正确分类的像素数,pij为类别i被误分为j的像素数)缺点:受类别不平衡影响大(如背景像素多,PA 易偏高)。
Mean Pixel Accuracy(MPA,平均像素精度):先计算 “每个类别内正确分类的像素比例”,再求所有类别的平均值,缓解类别不平衡问题。
2. 交并比类
IoU(交并比):针对单个类别,计算 “预测结果与真实标注的交集像素数” 与 “并集像素数” 的比值,是分割任务的核心指标,公式为:IoU=UnionIntersection
mIoU(平均交并比):所有类别的 IoU 平均值,是语义分割的 “黄金指标”,能综合反映全类别分割精度。
FWIoU(加权平均交并比):以 “每个类别在全图中的像素占比” 为权重,对 mIoU 进行加权计算,进一步突出大类别(如背景)的影响。
五、图像分割核心技术与网络结构
1. 网络核心模块
图像分割网络由 “编码器 - 解码器” 两部分组成,形成 “下采样提特征→上采样恢复尺寸” 的流程:
编码器(卷积模块):由卷积层(如 Conv2d)+ 池化层(Max Pooling)构成,通过下采样(缩小特征图尺寸)提取图像高层语义特征(如 “目标轮廓”“类别属性”),但会丢失空间细节(如像素位置)。
解码器(反卷积模块):由反卷积层(转置卷积)+ 反池化层(Unpooling)构成,通过上采样(放大特征图尺寸)恢复像素级空间细节,最终输出与原图尺寸一致的分割掩膜。
2. 关键技术:转置卷积(反卷积)
转置卷积是解码器的核心,实现 “下采样的逆过程”,本质是通过调整卷积核的作用方式实现上采样,具体差异如下:
- 普通卷积:4×4 输入(16 个像素)通过 3×3 核,转化为 2×2 输出(4 个像素),对应矩阵运算为 “16 维向量 × 4×16 稀疏矩阵 C → 4 维向量”;
- 转置卷积:2×2 输入(4 个像素)通过相同 3×3 核,转化为 4×4 输出(16 个像素),对应矩阵运算为 “4 维向量 × 16×4 稀疏矩阵CT → 16 维向量”。
3. 典型网络结构
以 “编码器 - 解码器” 为框架,典型结构流程为:
- 编码器:224×224 输入 → 卷积 + Max Pooling 下采样 → 逐步缩小至 28×28(提取高层特征);
- 解码器:28×28 特征图 → 转置卷积 + Unpooling 上采样 → 逐步恢复至 224×224(与输入尺寸一致);
- 输出层:生成像素级类别掩膜,完成语义分割。
