当前位置: 首页 > news >正文

图像分割介绍

一、图像分割基础认知

1. 定义与本质

图像分割是细粒度像素级分类任务,核心目标是预测目标轮廓,将图像中不同属性的像素划分到对应类别(如 “行人”“天空”“路面” 等),实现 “像素 - 类别” 的精准映射,区别于图像分类(整图标签)和目标检测(框选目标)。

2. 前景与背景划分

  • 物体(Things):可数的前景目标,具有明确个体边界(如行人、车辆、动物);
  • 事物(Stuff):不可数的背景区域,无个体区分(如天空、草地、路面、墙面)。

3. 应用场景

覆盖多领域实用需求,包括:

  • 人像抠图(影视后期、短视频创作);
  • 医学组织提取(如 CT/MRI 图像中肿瘤、器官分割);
  • 遥感图像分析(土地利用、植被覆盖分类);
  • 自动驾驶(道路、行人、障碍物分割);
  • 材料图像分析(材料结构、缺陷检测)。

二、图像分割的 “三层境界”(分类体系)

根据分割精度和目标维度,图像分割分为三个层级,核心差异在于 “是否区分个体 ID” 和 “是否覆盖背景类别”:

语义分割:仅区分 “类别属性”,不区分个体(如所有 “行人” 归为同一类)

实例分割:仅关注 “前景目标”,既区分类别,又区分个体 ID(如 “行人 1”“行人 2”)

全景分割:融合语义与实例分割,覆盖全图像素:背景像素有类别,前景像素有类别 + ID

三、核心数据集(标注与规模)

PPT 重点介绍 3 个主流图像分割数据集,均支持语义分割,部分支持实例分割,为模型训练提供标注数据支撑:

1. PASCAL VOC 数据集

  • 定位:世界级计算机视觉挑战赛数据集,入门级分割任务常用;
  • 类别:4 大类(Household、Animals、Vehicles、Person)+ 20 小类(如 car、cat、bus、bicycle);
  • 规模
    • VOC 2007:9963 张图像,24640 个标注目标;
    • VOC 2012:23080 张图像,54900 个标注目标;
    • 分割专用标注:共 2913 张图(1464 张训练图、1449 张验证图);
  • 标注类型:支持语义分割(SegmentationClass)、实例分割(SegmentationObject)。

2. Cityscape 数据集

  • 定位:聚焦 “街景场景” 的专业分割数据集,适用于自动驾驶等场景;
  • 数据特点:涵盖 50 个城市、春夏秋三季、不同时间段的街景,场景多样性强;
  • 类别:30 个类别,按属性分为 flat(道路、人行道)、human(行人、骑行者)、vehicle(汽车、卡车)、construction(建筑、围墙)等 7 组;
  • 规模
    • 精细标注:5000 张(2975 张训练、500 张验证、1525 张测试);
    • 粗略标注:20000 张;
  • 标注类型:支持语义分割、实例分割。

3. COCO 数据集

  • 定位:以 “复杂日常场景理解” 为目标,数据复杂度高于 VOC 和 Cityscape;
  • 数据特点:选取非标志性场景(Non-iconic images),包含多目标重叠、遮挡等真实场景;
  • 类别:共 91 类,以 “人类 4 岁小孩可辨识” 为标准,其中 82 类有超过 5000 个实例(确保训练数据充足);
  • 标注类型:支持语义分割、实例分割,兼顾目标检测与关键点检测。

四、语义分割核心评估指标

通过像素级精度和交并比两类指标,量化分割结果的准确性:

1. 像素精度类

  • Pixel Accuracy(PA,逐像素精度):全图中 “分类正确的像素数” 占 “总像素数” 的比例,公式为:PA=∑i=0k−1​∑j=0k−1​pij​∑i=0k−1​pii​​(k为类别数,pii​为类别i被正确分类的像素数,pij​为类别i被误分为j的像素数)缺点:受类别不平衡影响大(如背景像素多,PA 易偏高)。

  • Mean Pixel Accuracy(MPA,平均像素精度):先计算 “每个类别内正确分类的像素比例”,再求所有类别的平均值,缓解类别不平衡问题。

2. 交并比类

  • IoU(交并比):针对单个类别,计算 “预测结果与真实标注的交集像素数” 与 “并集像素数” 的比值,是分割任务的核心指标,公式为:IoU=UnionIntersection​

  • mIoU(平均交并比):所有类别的 IoU 平均值,是语义分割的 “黄金指标”,能综合反映全类别分割精度。

  • FWIoU(加权平均交并比):以 “每个类别在全图中的像素占比” 为权重,对 mIoU 进行加权计算,进一步突出大类别(如背景)的影响。

五、图像分割核心技术与网络结构

1. 网络核心模块

图像分割网络由 “编码器 - 解码器” 两部分组成,形成 “下采样提特征→上采样恢复尺寸” 的流程:

  • 编码器(卷积模块):由卷积层(如 Conv2d)+ 池化层(Max Pooling)构成,通过下采样(缩小特征图尺寸)提取图像高层语义特征(如 “目标轮廓”“类别属性”),但会丢失空间细节(如像素位置)。

  • 解码器(反卷积模块):由反卷积层(转置卷积)+ 反池化层(Unpooling)构成,通过上采样(放大特征图尺寸)恢复像素级空间细节,最终输出与原图尺寸一致的分割掩膜。

2. 关键技术:转置卷积(反卷积)

转置卷积是解码器的核心,实现 “下采样的逆过程”,本质是通过调整卷积核的作用方式实现上采样,具体差异如下:

  • 普通卷积:4×4 输入(16 个像素)通过 3×3 核,转化为 2×2 输出(4 个像素),对应矩阵运算为 “16 维向量 × 4×16 稀疏矩阵 C → 4 维向量”;
  • 转置卷积:2×2 输入(4 个像素)通过相同 3×3 核,转化为 4×4 输出(16 个像素),对应矩阵运算为 “4 维向量 × 16×4 稀疏矩阵CT → 16 维向量”。

3. 典型网络结构

以 “编码器 - 解码器” 为框架,典型结构流程为:

  1. 编码器:224×224 输入 → 卷积 + Max Pooling 下采样 → 逐步缩小至 28×28(提取高层特征);
  2. 解码器:28×28 特征图 → 转置卷积 + Unpooling 上采样 → 逐步恢复至 224×224(与输入尺寸一致);
  3. 输出层:生成像素级类别掩膜,完成语义分割。
http://www.dtcms.com/a/546075.html

相关文章:

  • 建个网站能赚钱吗大型网站建设基本流程
  • 肇庆市专注网站建设平台wordpress 数据库导入数据库文件
  • 电子学会青少年机器人技术(三级)等级考试试卷-实操题(2025年9月)
  • 根桥故障恢复过程
  • 仓颉技术:Set集合的去重机制
  • 哪里有专业网站建设公司如何登陆建设银行信用卡网站
  • 网站下载的app删除了怎么找到做家具网站要多少钱
  • 建设报名系统官方网站网络科技公司注册
  • 天将建设集团有限公司网站机床网站建设
  • 【计算机网络】HTTPS加密机制详解:从对称加密到证书认证的安全通信
  • Rust WebSocket 实战:从握手帧到百万连接的架构级落地
  • 做医疗网站要几个人表情包生成器在线制作
  • 【AI WorkFow】n8n 源码分析-项目结构(一)
  • 北京网站建设咸宁商城网站模板库
  • 推动楼宇自控系统长效发展:可持续策略与实践要点
  • 影盟自助网站建设阿里云wordpress更新
  • 景区门户网站建设魏县做网站的
  • jQuery Mobile 列表内容
  • 西安网站开发公司保山哪里有网站建设
  • 合肥网站空间市环保局网站建设方案
  • 【HarmonyOS】通知的基本操作
  • 乐吾乐3D可视化数字孪生案例【储能电站智慧园区可视化】
  • 仓颉反射API深度解析:从原理到鸿蒙生态实战
  • 城乡与住房建设厅网站首页网站建设服务哪家好
  • rust:猜数字小游戏
  • 天河网站+建设信科网络申请免费网站建设
  • 做ppt的软件怎么下载网站台州路桥做网站的公司
  • 网站如何做备份谷歌账号注册
  • 第三次周赛题解
  • 6.3.2.1 大数据方法论与实践指南-实时任务质量治理