图像分割学习笔记
1. 图像分割的核心定义
图像分割是细粒度的像素级分类任务,核心目标是通过算法预测目标的轮廓,将图像中不同属性的像素划分到对应的类别中(例如将 “行人”“路面”“天空” 的像素分别归类)。
2. 图像分割的典型应用场景
图像分割在多个领域具有不可替代的作用,主要包括:
- 人像抠图:精准分离人物与背景,用于摄影后期、视频剪辑等;
- 医学组织提取:分割 CT/MRI 图像中的病灶、器官(如肿瘤、肝脏),辅助疾病诊断与手术规划;
- 遥感图像分析:识别卫星图像中的农田、建筑、水体,支持国土规划、灾害监测;
- 自动驾驶:实时分割道路、行人、车辆、交通标志,为决策系统提供环境感知信息;
- 材料图像分析:检测材料微观结构中的缺陷、成分分布,助力材料性能优化。
3. 图像分割的前景与背景分类
为简化分割任务,通常将图像内容分为 “前景” 和 “背景” 两类,具体定义如下:
| 类别 | 定义 | 示例 | 
|---|---|---|
| Things | 可数的前景目标(具有明确轮廓) | 行人、车辆、动物 | 
| Stuff | 不可数的背景区域(无明确边界) | 天空、草地、路面、墙面 | 
4. 图像分割的三层境界(核心分类)
根据分割精度和目标的不同,图像分割可分为三个层级,三者的核心区别在于 “是否区分个体” 和 “是否覆盖全图像素”:
4.1 语义分割(Semantic Segmentation)
- 核心逻辑:将全图每个像素分配到唯一的语义类别(如 “猫”“狗”“路面”),不区分同类目标的个体差异;
- 输出形式:与原图尺寸一致的 “掩膜(Mask)”,每个像素对应一个类别标签;
- 示例:将图中所有 “猫” 的像素标为 “猫” 类,但不区分 “猫 1” 和 “猫 2”。
4.2 实例分割(Instance Segmentation)
- 核心逻辑:仅关注前景目标(Things),不仅预测类别属性(如 “行人”),还会输出目标的边框(Bounding Box)和个体 ID;
- 关键特点:不覆盖背景像素(Stuff),且同一类别的不同个体有独立 ID(如 “行人 1”“行人 2”),单个像素可属于多个 ID(若目标重叠);
- 示例:在自动驾驶场景中,仅分割 “车辆”“行人”,并区分每一辆车、每一个行人。
4.3 全景分割(Panoptic Segmentation)
- 核心逻辑:结合 “语义分割” 和 “实例分割” 的优势,覆盖全图所有像素:- 对前景目标(Things):分配 “语义类别 + 唯一实例 ID”(如 “行人 1”“车辆 2”);
- 对背景区域(Stuff):仅分配语义类别(如 “天空”“路面”);
 
- 优势:既实现全图像素分类,又能区分前景个体,是最贴近人类视觉感知的分割方式。
5. 常用图像分割数据集
数据集是模型训练与评估的基础,常用的三大核心数据集各有侧重,关键信息对比如下:
| 数据集 | 核心特点 | 类别数量 | 数据规模(精细标注) | 支持的分割任务 | 
|---|---|---|---|---|
| VOC 数据集 | 世界级计算机视觉挑战赛(PASCAL VOC)数据集,标注规范 | 4 大类、20 小类 | - VOC 2007:9963 张图 / 24640 个目标- VOC 2012:23080 张图 / 54900 个目标- 分割专用:2913 张(1464 训练 / 1449 验证) | 语义分割、实例分割 | 
| Cityscape | 聚焦城市街景,覆盖 50 个城市的春夏秋多时段场景 | 30 类 | - 精细标注:5000 张(2975 训练 / 500 验证 / 1525 测试)- 粗略标注:20000 张 | 语义分割、实例分割 | 
| COCO 数据集 | 以 “复杂日常场景理解” 为目标,图像内容更贴近真实生活 | 91 类(82 类含超 5000 个实例) | 未明确提及具体数量,以 “场景复杂度高” 为核心特征 | 语义分割、实例分割 | 
- 注:VOC 数据集从 2007 年开始引入分割标注;COCO 数据集的类别划分以 “人类 4 岁小孩可辨识” 为基准,实用性强。
6. 语义分割的评估指标
评估指标用于量化分割结果的准确性,核心指标包括以下 5 种:
| 指标名称 | 英文缩写 | 核心定义 | 
|---|---|---|
| 逐像素分类精度 | PA | 所有像素中被正确分类的比例(整体精度,易受 “大类像素” 影响) | 
| 平均像素精度 | MPA | 每个类别内 “正确分类像素数 / 该类总像素数” 的平均值(平衡各类别精度) | 
| 前景目标交并比 | IoU | 模型预测的目标区域与真实目标区域的交集面积 / 并集面积(单类精度) | 
| 平均交并比 | mIoU | 所有类别的 IoU 的平均值(语义分割的 “黄金指标”,最常用) | 
| 加权平均交并比 | FWIoU | 根据每个类别在图像中出现的概率(像素占比)对 mIoU 加权计算,更贴近实际场景 | 
7. 图像分割网络的核心模块
所有图像分割网络均由两大核心模块构成,二者协同实现 “特征提取 - 分辨率恢复”:
- 卷积模块(编码器):通过卷积层 + 池化层(如 Max Pooling)对图像进行下采样,逐步缩小图像分辨率,同时提取高层语义特征(如 “边缘”“纹理”“目标部件”);
- 反卷积模块(解码器):通过反卷积(转置卷积)+ 上采样层(如 Unpooling)对卷积模块输出的低分辨率特征图进行上采样,逐步恢复到原图尺寸,最终输出像素级的类别预测。
8. 转置卷积:上采样的关键技术
转置卷积(又称 “反卷积”)是解码器实现上采样的核心技术,其本质是 “卷积的逆操作”,通过特定计算将低分辨率特征图恢复为高分辨率。
8.1 卷积操作(下采样示例)
PPT 中以 “3×3 卷积核” 为例,展示了卷积的下采样过程:
- 输入尺寸:4×4(共 16 个像素);
- 输出尺寸:2×2(共 4 个像素);
- 实现逻辑:通过卷积核与输入图像的滑动窗口计算,将 4×4 的输入压缩为 2×2 的输出(下采样),过程可转化为 “稀疏矩阵乘法”(输入向量 × 稀疏卷积矩阵 = 输出向量)。
8.2 反卷积(转置卷积)操作(上采样示例)
反卷积是卷积的逆过程,同样以 “3×3 卷积核” 为例:
- 输入尺寸:2×2(共 4 个像素);
- 输出尺寸:4×4(共 16 个像素);
- 实现逻辑:通过 “转置后的稀疏矩阵” 与输入向量相乘,将 2×2 的低分辨率输入恢复为 4×4 的高分辨率输出(上采样),卷积核参数需进行反转(如 W02→W20)。
8.3 卷积与反卷积的转置关系
卷积的稀疏矩阵为C,反卷积的稀疏矩阵为C的转置(Cᵀ):
- 卷积:输出 = C × 输入(下采样);
- 反卷积:输出 = Cᵀ × 输入(上采样);
- 核心结论:二者通过矩阵转置实现 “下采样 - 上采样” 的逆过程,确保特征图分辨率可恢复。
9. 典型图像分割网络结构(编码器 - 解码器)
PPT 以 “224×224 输入图像” 为例,展示了典型分割网络的流程,核心是 “编码器下采样提取特征,解码器上采样恢复尺寸”:
- 编码器(卷积网络): - 输入:224×224 图像;
- 过程:通过 “卷积 + Max Pooling” 逐步下采样,尺寸变化为:224×224 → 112×112 → 56×56 → 28×28;
- 目标:提取高层语义特征,忽略细节,聚焦目标类别信息。
 
- 解码器(反卷积网络): - 输入:编码器输出的 28×28 低分辨率特征图;
- 过程:通过 “反卷积 + Unpooling” 逐步上采样,尺寸变化为:28×28 → 56×56 → 112×112 → 224×224;
- 目标:恢复图像分辨率,将高层特征映射到像素级,输出与原图尺寸一致的分割掩膜。
 
10. 总结
图像分割是 “像素级的细粒度分类”,核心围绕 “三层境界”(语义 / 实例 / 全景分割)展开,依赖 VOC、Cityscape、COCO 等专用数据集训练,通过 “编码器 - 解码器” 网络(卷积提取特征、转置卷积恢复分辨率)实现,最终用 mIoU 等指标评估精度。其技术广泛应用于医学、自动驾驶、遥感等领域,是计算机视觉中连接 “图像识别” 与 “场景理解” 的关键桥梁。
