当前位置: 首页 > news >正文

图像分割学习笔记

1. 图像分割的核心定义

图像分割是细粒度的像素级分类任务,核心目标是通过算法预测目标的轮廓,将图像中不同属性的像素划分到对应的类别中(例如将 “行人”“路面”“天空” 的像素分别归类)。

2. 图像分割的典型应用场景

图像分割在多个领域具有不可替代的作用,主要包括:

  • 人像抠图:精准分离人物与背景,用于摄影后期、视频剪辑等;
  • 医学组织提取:分割 CT/MRI 图像中的病灶、器官(如肿瘤、肝脏),辅助疾病诊断与手术规划;
  • 遥感图像分析:识别卫星图像中的农田、建筑、水体,支持国土规划、灾害监测;
  • 自动驾驶:实时分割道路、行人、车辆、交通标志,为决策系统提供环境感知信息;
  • 材料图像分析:检测材料微观结构中的缺陷、成分分布,助力材料性能优化。

3. 图像分割的前景与背景分类

为简化分割任务,通常将图像内容分为 “前景” 和 “背景” 两类,具体定义如下:

类别定义示例
Things可数的前景目标(具有明确轮廓)行人、车辆、动物
Stuff不可数的背景区域(无明确边界)天空、草地、路面、墙面

4. 图像分割的三层境界(核心分类)

根据分割精度和目标的不同,图像分割可分为三个层级,三者的核心区别在于 “是否区分个体” 和 “是否覆盖全图像素”:

4.1 语义分割(Semantic Segmentation)

  • 核心逻辑:将全图每个像素分配到唯一的语义类别(如 “猫”“狗”“路面”),不区分同类目标的个体差异
  • 输出形式:与原图尺寸一致的 “掩膜(Mask)”,每个像素对应一个类别标签;
  • 示例:将图中所有 “猫” 的像素标为 “猫” 类,但不区分 “猫 1” 和 “猫 2”。

4.2 实例分割(Instance Segmentation)

  • 核心逻辑:仅关注前景目标(Things),不仅预测类别属性(如 “行人”),还会输出目标的边框(Bounding Box)和个体 ID
  • 关键特点:不覆盖背景像素(Stuff),且同一类别的不同个体有独立 ID(如 “行人 1”“行人 2”),单个像素可属于多个 ID(若目标重叠);
  • 示例:在自动驾驶场景中,仅分割 “车辆”“行人”,并区分每一辆车、每一个行人。

4.3 全景分割(Panoptic Segmentation)

  • 核心逻辑:结合 “语义分割” 和 “实例分割” 的优势,覆盖全图所有像素
    • 对前景目标(Things):分配 “语义类别 + 唯一实例 ID”(如 “行人 1”“车辆 2”);
    • 对背景区域(Stuff):仅分配语义类别(如 “天空”“路面”);
  • 优势:既实现全图像素分类,又能区分前景个体,是最贴近人类视觉感知的分割方式。

5. 常用图像分割数据集

数据集是模型训练与评估的基础,常用的三大核心数据集各有侧重,关键信息对比如下:

数据集核心特点类别数量数据规模(精细标注)支持的分割任务
VOC 数据集世界级计算机视觉挑战赛(PASCAL VOC)数据集,标注规范4 大类、20 小类- VOC 2007:9963 张图 / 24640 个目标- VOC 2012:23080 张图 / 54900 个目标- 分割专用:2913 张(1464 训练 / 1449 验证)语义分割、实例分割
Cityscape聚焦城市街景,覆盖 50 个城市的春夏秋多时段场景30 类- 精细标注:5000 张(2975 训练 / 500 验证 / 1525 测试)- 粗略标注:20000 张语义分割、实例分割
COCO 数据集以 “复杂日常场景理解” 为目标,图像内容更贴近真实生活91 类(82 类含超 5000 个实例)未明确提及具体数量,以 “场景复杂度高” 为核心特征语义分割、实例分割
  • 注:VOC 数据集从 2007 年开始引入分割标注;COCO 数据集的类别划分以 “人类 4 岁小孩可辨识” 为基准,实用性强。

6. 语义分割的评估指标

评估指标用于量化分割结果的准确性,核心指标包括以下 5 种:

指标名称英文缩写核心定义
逐像素分类精度PA所有像素中被正确分类的比例(整体精度,易受 “大类像素” 影响)
平均像素精度MPA每个类别内 “正确分类像素数 / 该类总像素数” 的平均值(平衡各类别精度)
前景目标交并比IoU模型预测的目标区域与真实目标区域的交集面积 / 并集面积(单类精度)
平均交并比mIoU所有类别的 IoU 的平均值(语义分割的 “黄金指标”,最常用)
加权平均交并比FWIoU根据每个类别在图像中出现的概率(像素占比)对 mIoU 加权计算,更贴近实际场景

7. 图像分割网络的核心模块

所有图像分割网络均由两大核心模块构成,二者协同实现 “特征提取 - 分辨率恢复”:

  • 卷积模块(编码器):通过卷积层 + 池化层(如 Max Pooling)对图像进行下采样,逐步缩小图像分辨率,同时提取高层语义特征(如 “边缘”“纹理”“目标部件”);
  • 反卷积模块(解码器):通过反卷积(转置卷积)+ 上采样层(如 Unpooling)对卷积模块输出的低分辨率特征图进行上采样,逐步恢复到原图尺寸,最终输出像素级的类别预测。

8. 转置卷积:上采样的关键技术

转置卷积(又称 “反卷积”)是解码器实现上采样的核心技术,其本质是 “卷积的逆操作”,通过特定计算将低分辨率特征图恢复为高分辨率。

8.1 卷积操作(下采样示例)

PPT 中以 “3×3 卷积核” 为例,展示了卷积的下采样过程:

  • 输入尺寸:4×4(共 16 个像素);
  • 输出尺寸:2×2(共 4 个像素);
  • 实现逻辑:通过卷积核与输入图像的滑动窗口计算,将 4×4 的输入压缩为 2×2 的输出(下采样),过程可转化为 “稀疏矩阵乘法”(输入向量 × 稀疏卷积矩阵 = 输出向量)。

8.2 反卷积(转置卷积)操作(上采样示例)

反卷积是卷积的逆过程,同样以 “3×3 卷积核” 为例:

  • 输入尺寸:2×2(共 4 个像素);
  • 输出尺寸:4×4(共 16 个像素);
  • 实现逻辑:通过 “转置后的稀疏矩阵” 与输入向量相乘,将 2×2 的低分辨率输入恢复为 4×4 的高分辨率输出(上采样),卷积核参数需进行反转(如 W02→W20)。

8.3 卷积与反卷积的转置关系

卷积的稀疏矩阵为C,反卷积的稀疏矩阵为C的转置(Cᵀ)

  • 卷积:输出 = C × 输入(下采样);
  • 反卷积:输出 = Cᵀ × 输入(上采样);
  • 核心结论:二者通过矩阵转置实现 “下采样 - 上采样” 的逆过程,确保特征图分辨率可恢复。

9. 典型图像分割网络结构(编码器 - 解码器)

PPT 以 “224×224 输入图像” 为例,展示了典型分割网络的流程,核心是 “编码器下采样提取特征,解码器上采样恢复尺寸”:

  1. 编码器(卷积网络)

    • 输入:224×224 图像;
    • 过程:通过 “卷积 + Max Pooling” 逐步下采样,尺寸变化为:224×224 → 112×112 → 56×56 → 28×28;
    • 目标:提取高层语义特征,忽略细节,聚焦目标类别信息。
  2. 解码器(反卷积网络)

    • 输入:编码器输出的 28×28 低分辨率特征图;
    • 过程:通过 “反卷积 + Unpooling” 逐步上采样,尺寸变化为:28×28 → 56×56 → 112×112 → 224×224;
    • 目标:恢复图像分辨率,将高层特征映射到像素级,输出与原图尺寸一致的分割掩膜。

10. 总结

图像分割是 “像素级的细粒度分类”,核心围绕 “三层境界”(语义 / 实例 / 全景分割)展开,依赖 VOC、Cityscape、COCO 等专用数据集训练,通过 “编码器 - 解码器” 网络(卷积提取特征、转置卷积恢复分辨率)实现,最终用 mIoU 等指标评估精度。其技术广泛应用于医学、自动驾驶、遥感等领域,是计算机视觉中连接 “图像识别” 与 “场景理解” 的关键桥梁。

http://www.dtcms.com/a/551161.html

相关文章:

  • 岛屿数量---DFS BFS
  • wordpress二级域名建站微信分销商城平台系统
  • 文化传媒可以做网站吗手机创建网站
  • 商丘河南网站建设中山小榄网站
  • 软件班级网站建设主题做网站服务器配置
  • 2024icpc上海区域赛(ICBG)
  • 网站后台上传用户界面不显示wordpress ajax 慢
  • 医疗网站建设中心如何自己开发一个软件
  • 萧山建设银行招聘网站北京哪些做网站的公司好
  • 咸阳机场建设招聘信息网站im聊天软件开发
  • 宁波网站建设优化企业wordpress ip
  • wordpress皮肤设置企业网站如何优化
  • 广元网站建设广元erp系统的优点
  • 乾县做网站罗湖区住房和建设局网站
  • 免费网站建站排行榜app制作软件教程
  • 网站编辑制作广州自助网站推广制作
  • 【企业SRE/DevOps向的精通Linux课程培训课程】第 19 天:Linux 存储和文件系统(ext4, xfs, btrfs, 配额, 调优)
  • 做网站和网页区别迪奥网页设计图片
  • 英语课件做的好的网站vc做网站
  • 河北建设行业信息网站兰州建设网站
  • 10分钟免费建网站北京新鸿儒做的网站
  • 做瞹瞹小视频网站做服装搭配的流行趋势网站
  • 苏州建设网站公司在什么地方考研哪个培训机构比较好
  • Linux系统调用lseek详解:文件指针的灵活控制
  • 郑州seo建站如何做一个网络营销
  • html跳转到另一个html页面公司搜索seo
  • 商城网站需要多少空间网站建设 会议主持稿
  • 五合一小程序网站外管局网站做延期收汇报告
  • 慈溪网站建设网站优化就是seo
  • 网站开发毕业设计文档太原做推广营销