当前位置：首页 > news >正文

深度学习------图像分割项目

news 2025/10/30 9:49:03

一、先搞懂：图像分割到底在做什么？

二、分割的三层境界：从 “分类别” 到 “全解析”

1. 语义分割：给像素 “分大类”

2. 实例分割：给像素 “分个体”

3. 全景分割：“类别 + 个体” 全搞定

三、数据集：分割模型的 “练习题”

1. VOC 数据集：入门级 “练习题”

2. Cityscape 数据集：街景专属 “练习题”

3. COCO 数据集：复杂场景 “进阶题”

四、核心技术：怎么让特征图 “变回” 原图？

五、怎么判断分割得好不好？关键看这两个指标

1. 像素精度（PA）：简单直接的 “正确率”

2. 交并比（IoU）与平均交并比（mIoU）：更公平的 “重叠度”

六、结尾：新手入门的小建议

从像素贴标签开始：图像分割入门，这些基础得先搞懂

刚开始接触图像分割时，总觉得它和目标检测 “差不多”—— 不都是找图里的物体吗？直到自己试着给一张街景图做分割标注才发现：检测是 “框出哪有车”，而分割是 “标出每一个像素是不是车”，细粒度完全不是一个级别。今天就把刚理清的图像分割核心知识拆成大白话，从 “是什么” 到 “怎么评”，新手入门应该能少绕点弯。

一、先搞懂：图像分割到底在做什么？

简单说，图像分割是 “给图片里的每一个像素贴标签” 的游戏 —— 比目标检测的 “找目标、画框框” 更细致。比如一张有猫和狗的图：

目标检测会输出 “猫在 (100,200) 到 (300,400)”“狗在 (500,200) 到 (700,400)” 的框；
图像分割则会给猫身上的每一个像素贴 “猫” 的标签，狗身上的贴 “狗”，背景的贴 “草地”“天空”，最后输出一张和原图一样大的 “标签图”（也叫掩膜）。

它的应用场景也特别实在：比如人像抠图（把人物像素和背景像素分开）、医学影像（标出肿瘤的每一个像素范围）、自动驾驶（区分路面、行人、车辆的像素区域）—— 本质都是 “像素级的分类”，这也是它和其他计算机视觉任务最核心的区别。

二、分割的三层境界：从 “分类别” 到 “全解析”

刚开始我以为分割就一种，后来才知道它分三层，一层比一层要求高，像升级打怪一样：

1. 语义分割：给像素 “分大类”

这是最基础的一层，核心是 “只分类，不分个体”。比如一张有三只猫的图，语义分割会把所有猫的像素都标成 “猫” 类，不会区分 “这只是橘猫 A，那只是黑猫 B”。就像给学生按 “年级” 分类，只知道是 “三年级”，不知道具体是哪个学生。

它的输出是一张 “类别掩膜”—— 每个像素对应一个类别（比如 0 = 背景、1 = 猫、2 = 狗），适合只需要 “知道图里有什么类别” 的场景，比如遥感图像分析（区分耕地、建筑、森林的像素区域）。

2. 实例分割：给像素 “分个体”

比语义分割多了一步 “区分个体”。还是三只猫的例子，实例分割会给橘猫 A 的像素标 “猫 - 1”，黑猫 B 标 “猫 - 2”，花猫 C 标 “猫 - 3”—— 既知道是猫，还知道是哪一只。就像给学生按 “班级 + 学号” 分类，能精准定位到具体个人。

但要注意：实例分割只关注 “可数的前景目标”（比如人、车、动物），像天空、草地这种 “不可数的背景”，它不管。适合需要 “区分个体” 的场景，比如 counting（数图里有多少只鸟）、工业质检（区分零件上的多个瑕疵）。

3. 全景分割：“类别 + 个体” 全搞定

这是最高层，把语义分割和实例分割结合起来 —— 既给背景像素分类（比如天空、路面），也给前景目标分个体（比如车 1、车 2、行人 1）。就像给整个校园的人按 “年级 + 班级 + 学号” 分类，再给校园里的树、楼按 “植物、建筑” 分类，一张图里所有像素都有 “类别 + 身份”。

比如自动驾驶的场景，全景分割能同时标出 “路面（语义类）”“车 1（实例 1）”“车 2（实例 2）”“行人 1（实例 3）”，让模型既能知道 “这是路面”，也能知道 “这两辆车是不同个体”，比单独用语义或实例分割更实用。

三、数据集：分割模型的 “练习题”

和所有深度学习任务一样，分割模型也需要 “练习题”—— 标注好的数据集。我整理了三个最常用的，新手入门先搞懂它们的区别就行：

1. VOC 数据集：入门级 “练习题”

适合刚开始练手，它分 4 大类、20 小类（比如 “动物” 类里有猫、狗、鸟），标注了语义和实例分割任务。数据量不算大：VOC 2007 有近万张图，VOC 2012 有两万多张，而且标注清晰，很多入门教程都用它。唯一缺点是场景比较简单，比如大多是单个或少数物体，复杂场景少。

2. Cityscape 数据集：街景专属 “练习题”

专门针对自动驾驶的街景场景，收集了 50 个城市的图，有春、夏、秋三个季节，还分早中晚不同时间段。类别很细，30 个类（比如 “路面” 还分普通路面、人行道、停车场），标注了 5000 张精细图（2975 张训练、500 张验证）和 2 万张粗略图。如果想做街景分割（比如自动驾驶里的路面检测），用它准没错。

3. COCO 数据集：复杂场景 “进阶题”

比前两个难一点，专门选 “日常复杂场景”—— 比如菜市场（人多、杂物多）、客厅（家具多、遮挡多），共 91 类，82 类有超过 5000 个实例。它的标注更贴近真实生活，比如一张图里可能有十几个人、好几件家具，还会有遮挡（比如人被桌子挡住一半），适合练模型的 “抗干扰能力”。

四、核心技术：怎么让特征图 “变回” 原图？

分割模型有个关键问题：卷积层会把图像越变越小（比如 224×224 的图，经过几次卷积会变成 7×7），但分割需要输出和原图一样大的 “标签图”—— 这就需要 “上采样”，最常用的就是转置卷积。

我用简单例子理解它：

普通卷积：像 “压缩饼干”，4×4 的输入图，用 3×3 卷积核，会输出 2×2 的小图（缩小）；
转置卷积：像 “把压缩饼干撑开”，2×2 的输入图，用同样 3×3 卷积核，能恢复成 4×4 的图（放大）。

它的核心是 “逆转卷积的计算过程”—— 普通卷积是通过卷积核提取特征并缩小尺寸，转置卷积则是通过调整卷积核的权重和排列，让小尺寸的特征图 “还原” 成原图大小，这样才能给每一个像素贴标签。刚开始我总搞混 “转置卷积” 和 “普通卷积”，后来画了张对比图才明白：两者就像 “压缩” 和 “解压”，目的都是为了在 “提特征” 和 “出结果” 之间找平衡。

五、怎么判断分割得好不好？关键看这两个指标

练模型总得知道 “练得怎么样”，图像分割常用两个指标，不用算太复杂，理解核心逻辑就行：

1. 像素精度（PA）：简单直接的 “正确率”

就是 “分对的像素数 ÷ 总像素数”，比如一张 100×100 的图，9000 个像素分对了，PA 就是 90%。优点是好算，缺点是 “偏科”—— 如果背景像素多（比如天空占 80%），哪怕只分对背景，PA 也会很高，体现不出前景分割的好坏。

2. 交并比（IoU）与平均交并比（mIoU）：更公平的 “重叠度”

IoU 是 “预测对的像素区域和真实区域的重叠面积 ÷ 两者的总面积”，比如预测的 “猫” 区域和真实猫区域重叠了 80%，IoU 就是 80%。mIoU 则是所有类别的 IoU 取平均，能避免 PA 的 “偏科” 问题，比如背景类 IoU 高、前景类 IoU 低，mIoU 会直接反映出来，是分割任务的 “核心指标”。

我刚开始算 mIoU 时，对着公式发呆，后来用 “画圈圈” 理解：把预测区域和真实区域画成两个圈，重叠部分越大、总面积越小，IoU 越高，分割得就越准。