图像分割技术总结
基本概念定义
图像分割:预测目标轮廓,将像素划分到不同类别,实现细粒度分类
应用领域:人像抠图,医学组织提取,遥感图像分析,自动驾驶,材料图像分析
目标类别划分
物体类别:可数前景目标(行人、车辆等)
背景类别:不可数事物(天空、草地、路面等)
技术层次体系
语义分割:每个像素分配单一类别标签,输出语义掩膜
实例分割:检测前景目标,预测类别、边界框和个体ID
全景分割:统一语义分割和实例分割,每个像素分配语义标签和实例ID
常用数据集
VOC数据集:PASCAL视觉对象挑战赛数据,20个对象类别
包含语义分割和实例分割标注,训练验证图片约3000张
Cityscape数据集:50个城市街景,30个类别
5000张精细标注图像,20000张粗略标注图像
COCO数据集:复杂日常场景,91个对象类别
注重场景理解,82个类别包含超过5000个实例
评估指标体系
像素精度:逐像素分类准确率
平均像素精度:各类别内部精度平均值
交并比:预测区域与真实区域重叠度
平均交并比:各类别IoU平均值
频率加权IoU:考虑类别频率的加权mIoU
网络核心结构
编码器部分:卷积模块负责特征提取
解码器部分:反卷积模块实现上采样恢复分辨率
转置卷积:通过转置卷积核实现尺寸还原
典型架构:编码器-解码器对称结构
关键技术实现
特征提取:多层卷积获取抽象特征
上采样:转置卷积恢复空间维度
跳跃连接:保留浅层细节信息
多尺度融合:结合不同层次特征
典型网络模型
全卷积网络FCN:端到端像素级预测
U-Net:医学图像分割经典架构
DeepLab系列:空洞卷积扩大感受野
PSPNet:金字塔场景解析网络
发展趋势
精度提升:从粗分割到精细边缘
速度优化:实时分割技术发展
多任务融合:检测与分割统一框架
应用扩展:工业质检、自动驾驶等落地场景
