当前位置：首页 > news >正文

图像分割介绍

news 2025/10/30 12:36:35

图像分割是细粒度像素级分类任务，核心目标是预测目标轮廓，将图像中不同属性的像素划分到对应类别（如 “行人”“天空”“路面” 等），实现 “像素 - 类别” 的精准映射，区别于图像分类（整图标签）和目标检测（框选目标）。

覆盖多领域实用需求，包括：

根据分割精度和目标维度，图像分割分为三个层级，核心差异在于 “是否区分个体 ID” 和 “是否覆盖背景类别”：

语义分割：仅区分 “类别属性”，不区分个体（如所有 “行人” 归为同一类）

实例分割：仅关注 “前景目标”，既区分类别，又区分个体 ID（如 “行人 1”“行人 2”）

全景分割：融合语义与实例分割，覆盖全图像素：背景像素有类别，前景像素有类别 + ID

PPT 重点介绍 3 个主流图像分割数据集，均支持语义分割，部分支持实例分割，为模型训练提供标注数据支撑：

定位：世界级计算机视觉挑战赛数据集，入门级分割任务常用；
类别：4 大类（Household、Animals、Vehicles、Person）+ 20 小类（如 car、cat、bus、bicycle）；
规模：
- VOC 2007：9963 张图像，24640 个标注目标；
- VOC 2012：23080 张图像，54900 个标注目标；
- 分割专用标注：共 2913 张图（1464 张训练图、1449 张验证图）；
标注类型：支持语义分割（SegmentationClass）、实例分割（SegmentationObject）。

定位：聚焦 “街景场景” 的专业分割数据集，适用于自动驾驶等场景；
数据特点：涵盖 50 个城市、春夏秋三季、不同时间段的街景，场景多样性强；
类别：30 个类别，按属性分为 flat（道路、人行道）、human（行人、骑行者）、vehicle（汽车、卡车）、construction（建筑、围墙）等 7 组；
规模：
- 精细标注：5000 张（2975 张训练、500 张验证、1525 张测试）；
- 粗略标注：20000 张；
标注类型：支持语义分割、实例分割。

通过像素级精度和交并比两类指标，量化分割结果的准确性：

Pixel Accuracy（PA，逐像素精度）：全图中 “分类正确的像素数” 占 “总像素数” 的比例，公式为：PA=∑i=0k−1∑j=0k−1pij∑i=0k−1pii（k为类别数，pii为类别i被正确分类的像素数，pij为类别i被误分为j的像素数）缺点：受类别不平衡影响大（如背景像素多，PA 易偏高）。
Mean Pixel Accuracy（MPA，平均像素精度）：先计算 “每个类别内正确分类的像素比例”，再求所有类别的平均值，缓解类别不平衡问题。

IoU（交并比）：针对单个类别，计算 “预测结果与真实标注的交集像素数” 与 “并集像素数” 的比值，是分割任务的核心指标，公式为：IoU=UnionIntersection
mIoU（平均交并比）：所有类别的 IoU 平均值，是语义分割的 “黄金指标”，能综合反映全类别分割精度。
FWIoU（加权平均交并比）：以 “每个类别在全图中的像素占比” 为权重，对 mIoU 进行加权计算，进一步突出大类别（如背景）的影响。

图像分割网络由 “编码器 - 解码器” 两部分组成，形成 “下采样提特征→上采样恢复尺寸” 的流程：

编码器（卷积模块）：由卷积层（如 Conv2d）+ 池化层（Max Pooling）构成，通过下采样（缩小特征图尺寸）提取图像高层语义特征（如 “目标轮廓”“类别属性”），但会丢失空间细节（如像素位置）。
解码器（反卷积模块）：由反卷积层（转置卷积）+ 反池化层（Unpooling）构成，通过上采样（放大特征图尺寸）恢复像素级空间细节，最终输出与原图尺寸一致的分割掩膜。

转置卷积是解码器的核心，实现 “下采样的逆过程”，本质是通过调整卷积核的作用方式实现上采样，具体差异如下：

普通卷积：4×4 输入（16 个像素）通过 3×3 核，转化为 2×2 输出（4 个像素），对应矩阵运算为 “16 维向量 × 4×16 稀疏矩阵 C → 4 维向量”；
转置卷积：2×2 输入（4 个像素）通过相同 3×3 核，转化为 4×4 输出（16 个像素），对应矩阵运算为 “4 维向量 × 16×4 稀疏矩阵CT → 16 维向量”。