当前位置：首页 > news >正文

第10篇图像语义分割和目标检测介绍

news 来源：原创 2025/6/30 9:15:21

语义分割(Semantic Segmentation)是图像处理和机器视觉一个重要分支，其目标是精确理解图像场景与内容。语义分割是在像素级别上的分类，属于同一类的像素都要被归为一类，因此语义分割是从像素级别来理解图像的。如下如所示的照片，属于人的像素部分划分成一类，属于摩托车的像素划分成一类，背景像素划分为一类。

在计算机视觉领域里，不仅有图像分类的任务，有很多更复杂的任务，

比如对图像中的目标进行检测和识别，或对图像进行实例分割和语义分割等。

其中在基于卷积神经网络的深度学习算法出现后，图像的语义分割和目标检测的精度也有了质的提升。

本篇介绍几种经典的图像的语义分割和目标检测网络结构，

然后介绍在PyTorch中已经预训练好的语义分割和目标检测网络的使用，并且以具体的数据集为例，介绍一种简单的语义分割网络的训练和应用。

图像语义分割是计算机视觉中像素级别的分类任务，旨在将图像中的每个像素划分到对应的语义类别‌，实现对图像内容的细致理解与划分，广泛应用于自动驾驶、医学影像分析等领域。

‌核心概念与原理‌

图像语义分割的核心是对图像中每个像素进行分类，赋予其对应的语义标签。例如，在城市街景图像中，人物、车辆、道路等像素会被分别标记为不同类别，形成语义区域划分。与图像分类（整体类别判断）和目标检测（矩形框定位）相比，语义分割的精度更高，能实现像素级解析。‌‌‌‌

‌技术方法与应用‌

‌主流模型架构‌：包括FCN（全卷积网络）、SegNet、U-Net、PSPNet等，这些模型通过卷积神经网络提取特征，并采用上采样或跳跃连接恢复空间分辨率。‌‌1
‌弱监督学习‌：通过减少标注成本（如仅使用图像级标签）提升分割效率，复旦大学张巍团队曾开展相关研究。‌‌2
‌工业应用‌：LED异形屏通过语义分割生成视觉关注度热力图，动态调节分辨率以优化显示效果。‌‌3

‌与其他分割任务的区别‌

任务类型	特点
语义分割	仅区分类别（如所有"汽车"像素归为一类）
实例分割	区分同类个体（如不同车辆像素分开标记）
全景分割	结合语义与实例分割，覆盖所有目标并区分实例‌‌4

语义分割图像分割级别可以分为语义级分割、实例级分割和全景分割。

语义分割（semantic segmentation）：对图像中的每个像素划分到不同的类别；
实例分割（instance segmentation）：对图像中每个像素划分到不同的个体（可以理解为目标检测和语义分割的结合）；
全景分割（panoptic segmentation）：语义分割和实例分割的结合，即要对所有目标都检测出来，又要区分出同个类别中的不同实例。

10.1常用的语义分割网络

语义分割是对图像在像素级别上进行分类的方法，在一张图像中，属于同一类的像素点都要被预测为相同的类，因此语义分割是从像素级别来理解图像。但是需要正确区分语义分割和实例分割，虽然它们在名称上很相似，但是它们属于不同的计算机视觉任务。例如，一张照片中有多个人，针对语义分割任务，只需将所有人的像素都归为一类即可，但是针对实例分割任务，则需要将不同人的像素归为不同的类。简单来说，实例分割会比语义分割所做的工作更进一步。随着深度学习在计算机视觉领域的发展，提出了多种基于深度学习方法的图像语义分割网络，如FCN、U-Net、SegNet、DeepLab等。下面对FCN、U-Net、SegNet等网络结构进行一些简单的介绍，详细的内容读者可以阅读相关论文。

1.FCN

FCN语义分割网络是在图像语义分割文章Fully Convolutional Networks forSemantic Segmentation中提出的全卷积网络，该文章是基于深度网络进行图像语义分割的开山之作，而且是全卷积的网络，可以输入任意图像尺寸。其网络进行图像语义分割的示意图如图10-1所示。

FCN的主要思想是：

(1)对于一般的CNN图像分类网络，如VGG和ResNet,在网络的最后是通过全连接层，并经过softmax后进行分类。但这只能标识整个图片的类别，不能标识每个像素点的类别，所以这种全连接方法不适用于图像分割。因此FCN提出把网络最后几个全连接层都换成卷积操作，以获得和输人图像尺寸相同的特征映射，然后通过softmax获得每个像素点的分类信息，即可实现基于像素点分类的图像分割。

（2）端到端像素级语义分割任务，需要输出分类结果尺寸和输入图像尺寸一致，而基于卷积+池化的网络结构，会缩小图片尺寸。因此FCN引入反卷积(deconvolution,和转置卷积的功能一致，也可称为转置卷积)操作，对缩小后的特征映射进行上采样，从而满足像素级的图像分割要求。

（3)为了更有效地利用特征映射的信息，FCN提出一种跨层连接结构，将低层和高层的目标位置信息的特征映射进行融合，即将低层目标位置信息强但语义信息弱的特征映射与高层目标位置信息弱但语义信息强的特征映射进行融合，以此来提升网络对图像进行语义分割的性能。

图10-1所示是图像语义分割文章Fully Convolutional Networks for SemanticSegmentation中提出的全卷积网络对图像进行语义分割的网络工作示意图。