当前位置：首页 > news >正文

图像分割学习笔记

news 2025/10/31 18:15:49

1. 图像分割的核心定义

图像分割是细粒度的像素级分类任务，核心目标是通过算法预测目标的轮廓，将图像中不同属性的像素划分到对应的类别中（例如将 “行人”“路面”“天空” 的像素分别归类）。

2. 图像分割的典型应用场景

图像分割在多个领域具有不可替代的作用，主要包括：

人像抠图：精准分离人物与背景，用于摄影后期、视频剪辑等；
医学组织提取：分割 CT/MRI 图像中的病灶、器官（如肿瘤、肝脏），辅助疾病诊断与手术规划；
遥感图像分析：识别卫星图像中的农田、建筑、水体，支持国土规划、灾害监测；
自动驾驶：实时分割道路、行人、车辆、交通标志，为决策系统提供环境感知信息；
材料图像分析：检测材料微观结构中的缺陷、成分分布，助力材料性能优化。

3. 图像分割的前景与背景分类

为简化分割任务，通常将图像内容分为 “前景” 和 “背景” 两类，具体定义如下：

类别	定义	示例
Things	可数的前景目标（具有明确轮廓）	行人、车辆、动物
Stuff	不可数的背景区域（无明确边界）	天空、草地、路面、墙面

4. 图像分割的三层境界（核心分类）

根据分割精度和目标的不同，图像分割可分为三个层级，三者的核心区别在于 “是否区分个体” 和 “是否覆盖全图像素”：

4.1 语义分割（Semantic Segmentation）

核心逻辑：将全图每个像素分配到唯一的语义类别（如 “猫”“狗”“路面”），不区分同类目标的个体差异；
输出形式：与原图尺寸一致的 “掩膜（Mask）”，每个像素对应一个类别标签；
示例：将图中所有 “猫” 的像素标为 “猫” 类，但不区分 “猫 1” 和 “猫 2”。

4.2 实例分割（Instance Segmentation）

核心逻辑：仅关注前景目标（Things），不仅预测类别属性（如 “行人”），还会输出目标的边框（Bounding Box）和个体 ID；
关键特点：不覆盖背景像素（Stuff），且同一类别的不同个体有独立 ID（如 “行人 1”“行人 2”），单个像素可属于多个 ID（若目标重叠）；
示例：在自动驾驶场景中，仅分割 “车辆”“行人”，并区分每一辆车、每一个行人。

4.3 全景分割（Panoptic Segmentation）

核心逻辑：结合 “语义分割” 和 “实例分割” 的优势，覆盖全图所有像素：
- 对前景目标（Things）：分配 “语义类别 + 唯一实例 ID”（如 “行人 1”“车辆 2”）；
- 对背景区域（Stuff）：仅分配语义类别（如 “天空”“路面”）；
优势：既实现全图像素分类，又能区分前景个体，是最贴近人类视觉感知的分割方式。

5. 常用图像分割数据集

数据集是模型训练与评估的基础，常用的三大核心数据集各有侧重，关键信息对比如下：

数据集	核心特点	类别数量	数据规模（精细标注）	支持的分割任务
VOC 数据集	世界级计算机视觉挑战赛（PASCAL VOC）数据集，标注规范	4 大类、20 小类	- VOC 2007：9963 张图 / 24640 个目标- VOC 2012：23080 张图 / 54900 个目标- 分割专用：2913 张（1464 训练 / 1449 验证）	语义分割、实例分割
Cityscape	聚焦城市街景，覆盖 50 个城市的春夏秋多时段场景	30 类	- 精细标注：5000 张（2975 训练 / 500 验证 / 1525 测试）- 粗略标注：20000 张	语义分割、实例分割
COCO 数据集	以 “复杂日常场景理解” 为目标，图像内容更贴近真实生活	91 类（82 类含超 5000 个实例）	未明确提及具体数量，以 “场景复杂度高” 为核心特征	语义分割、实例分割

注：VOC 数据集从 2007 年开始引入分割标注；COCO 数据集的类别划分以 “人类 4 岁小孩可辨识” 为基准，实用性强。

6. 语义分割的评估指标

评估指标用于量化分割结果的准确性，核心指标包括以下 5 种：

指标名称	英文缩写	核心定义
逐像素分类精度	PA	所有像素中被正确分类的比例（整体精度，易受 “大类像素” 影响）
平均像素精度	MPA	每个类别内 “正确分类像素数 / 该类总像素数” 的平均值（平衡各类别精度）
前景目标交并比	IoU	模型预测的目标区域与真实目标区域的交集面积 / 并集面积（单类精度）
平均交并比	mIoU	所有类别的 IoU 的平均值（语义分割的 “黄金指标”，最常用）
加权平均交并比	FWIoU	根据每个类别在图像中出现的概率（像素占比）对 mIoU 加权计算，更贴近实际场景

7. 图像分割网络的核心模块

所有图像分割网络均由两大核心模块构成，二者协同实现 “特征提取 - 分辨率恢复”：

卷积模块（编码器）：通过卷积层 + 池化层（如 Max Pooling）对图像进行下采样，逐步缩小图像分辨率，同时提取高层语义特征（如 “边缘”“纹理”“目标部件”）；
反卷积模块（解码器）：通过反卷积（转置卷积）+ 上采样层（如 Unpooling）对卷积模块输出的低分辨率特征图进行上采样，逐步恢复到原图尺寸，最终输出像素级的类别预测。

8. 转置卷积：上采样的关键技术

转置卷积（又称 “反卷积”）是解码器实现上采样的核心技术，其本质是 “卷积的逆操作”，通过特定计算将低分辨率特征图恢复为高分辨率。

8.1 卷积操作（下采样示例）

PPT 中以 “3×3 卷积核” 为例，展示了卷积的下采样过程：

输入尺寸：4×4（共 16 个像素）；
输出尺寸：2×2（共 4 个像素）；
实现逻辑：通过卷积核与输入图像的滑动窗口计算，将 4×4 的输入压缩为 2×2 的输出（下采样），过程可转化为 “稀疏矩阵乘法”（输入向量 × 稀疏卷积矩阵 = 输出向量）。

8.2 反卷积（转置卷积）操作（上采样示例）

反卷积是卷积的逆过程，同样以 “3×3 卷积核” 为例：

输入尺寸：2×2（共 4 个像素）；
输出尺寸：4×4（共 16 个像素）；
实现逻辑：通过 “转置后的稀疏矩阵” 与输入向量相乘，将 2×2 的低分辨率输入恢复为 4×4 的高分辨率输出（上采样），卷积核参数需进行反转（如 W02→W20）。

8.3 卷积与反卷积的转置关系

卷积的稀疏矩阵为C，反卷积的稀疏矩阵为C的转置（Cᵀ）：

卷积：输出 = C × 输入（下采样）；
反卷积：输出 = Cᵀ × 输入（上采样）；
核心结论：二者通过矩阵转置实现 “下采样 - 上采样” 的逆过程，确保特征图分辨率可恢复。

9. 典型图像分割网络结构（编码器 - 解码器）

PPT 以 “224×224 输入图像” 为例，展示了典型分割网络的流程，核心是 “编码器下采样提取特征，解码器上采样恢复尺寸”：

编码器（卷积网络）：
- 输入：224×224 图像；
- 过程：通过 “卷积 + Max Pooling” 逐步下采样，尺寸变化为：224×224 → 112×112 → 56×56 → 28×28；
- 目标：提取高层语义特征，忽略细节，聚焦目标类别信息。
解码器（反卷积网络）：
- 输入：编码器输出的 28×28 低分辨率特征图；
- 过程：通过 “反卷积 + Unpooling” 逐步上采样，尺寸变化为：28×28 → 56×56 → 112×112 → 224×224；
- 目标：恢复图像分辨率，将高层特征映射到像素级，输出与原图尺寸一致的分割掩膜。

10. 总结

图像分割是 “像素级的细粒度分类”，核心围绕 “三层境界”（语义 / 实例 / 全景分割）展开，依赖 VOC、Cityscape、COCO 等专用数据集训练，通过 “编码器 - 解码器” 网络（卷积提取特征、转置卷积恢复分辨率）实现，最终用 mIoU 等指标评估精度。其技术广泛应用于医学、自动驾驶、遥感等领域，是计算机视觉中连接 “图像识别” 与 “场景理解” 的关键桥梁。

查看全文

http://www.dtcms.com/a/551161.html