当前位置：首页 > news >正文

【论文笔记】基于深度学习的图像分割研究综述和基于深度学习的二分图像分割综述

news 2025/9/28 5:55:18

基于深度学习的图像分割研究综述

计算机视觉三大基础任务：图像分类、目标检测和图像分割

图像分割旨在将数字图像划分为互不相交且连通的像素集，以简化图像表示，使其更易于分析和理解

图像分割可分为基于传统方法和基于深度学习的方法；图像分割又有语义分割、实例分割和全景分割之分

基于传统方法的图像分割方法：基于灰度值的不连续和相似的性质对图像进行超像素分割，分割主要基于图像的低层特征，如灰度值、颜色和纹理

超像素：由一系列在颜色、亮度、纹理等方面相似的相邻像素组成的不规则区域

区域分割法：以直接寻找区域为基础的分割技术，即将图像分割成若干个区域，而后对每个区域进行进一步处理，包括区域生长、区域分裂与合并、分水岭算法

目标是将图像划分成若干个具有相似属性的连通区域

区域生长：从一个或多个“种子点”出发，按照一定的生长准则（如灰度值、颜色、纹理的相似性），逐步将邻近的相似像素合并进来，从而形成一个区域。

步骤：

选择种子点：根据具体问题，手动或自动地选择一个或多个像素作为生长的起点。例如，在医学图像中，肿瘤区域可能比周围组织更亮，可以选择最亮的点作为种子。
定义生长准则：确定一个规则来判断相邻像素是否能被合并到区域中。最常用的准则是灰度级或颜色的差值小于某个阈值 T。
执行生长：
- 检查种子点邻域（如4-邻域或8-邻域）内的像素。
- 如果某个邻域像素满足生长准则（例如，|灰度值 - 种子点灰度值| < T），就将其合并到区域中。
- 新被合并的像素又成为新的“生长前沿”，继续检查它们的邻域。
- 重复此过程，直到没有新的像素能满足合并条件为止。

区域分裂与合并：与“从点到面”的区域生长相反，这种方法采用“从面到点”的策略。它首先将整个图像视为一个初始区域，如果这个区域不满足“均匀性”准则，就将其分裂成多个子区域；然后，检查相邻的子区域，如果它们合并后能满足均匀性准则，就将它们合并起来

步骤：

分裂：
- 从整个图像（作为一个区域）开始。
- 对于每一个现有区域 R，检查它是否满足均匀性准则（例如，区域内像素灰度方差小于阈值）。
- 如果不满足，就将该区域分裂成四个相等的象限（通常是四叉树结构）。
- 对每个新产生的子区域重复上述过程，直到所有区域都满足均匀性准则为止。
合并：
- 在分裂过程结束后，检查所有相邻的区域对。
- 如果两个相邻区域合并后能满足均匀性准则，就将它们合并成一个更大的区域。
- 重复合并过程，直到没有更多的区域可以合并。

分水岭算法：将图像视为一个地形表面，其中像素的灰度值代表该点的海拔高度。

高灰度值对应山峰。
低灰度值对应山谷。

算法模拟“浸水”的过程：

在每个局部最小值（山谷最低点）打一个洞，然后慢慢往“地形”里注水。
随着水位上升，来自不同山谷的水会开始汇聚。
为了防止不同来源的水（代表不同区域）合并，在它们即将汇聚的地方修建“水坝”。
当水位到达最高峰时，停止注水。此时修建的“水坝”就构成了图像的分割边界。

边缘检测：这种方法是通过检测图像中亮度变化明显的边缘来识别对象，常用的边缘检测算子有Sobel、Canny等

边缘的本质是图像中亮度（灰度）发生显著变化的地方，边缘检测的核心思想就是：先找到这些亮度急剧变化的边缘点，然后将它们连接起来形成对象的轮廓，从而完成对图像中对象的识别和分割

在数学上，剧烈的变化可以用导数或梯度来衡量

一阶导数：反映函数值变化的强度（即变化的斜率有多大）。在图像中，一阶导数的局部极值点对应着边缘点。
二阶导数：反映函数值变化的方向（即斜率本身的变化率）。在图像中，二阶导数的过零点对应着边缘点。

我们可以把一张图像想象成一个二维函数 I(x, y)，它表示在坐标 (x, y) 处的像素亮度。

计算梯度：我们需要计算这个函数在 x方向 和 y方向 上的偏导数。
- 梯度向量：∇I = [∂I/∂x, ∂I/∂y]。这个向量指向图像亮度变化最快的方向。
- 梯度幅度：|∇I| = √[(∂I/∂x)² + (∂I/∂y)²]。这个值表示了变化的强度。幅度越大，说明该点是边缘的可能性越大。
- 梯度方向：θ = arctan( (∂I/∂y) / (∂I/∂x) )。这个方向垂直于边缘的方向。
检测边缘：通过检查梯度幅度图，找到那些幅度值很高的点，它们就是候选的边缘点。

“算子”在这里可以理解为一个小的数字矩阵（或称“卷积核”）。我们将这个核在图像上滑动，通过卷积计算来近似地求出图像的导数。

Sobel 算子：一种一阶导数算子，它使用两个 3x3 的核，分别用于计算 x 方向和 y 方向的近似导数

Canny算子：它不只是一个简单的卷积核，而是一个包含多个步骤的流程：

高斯滤波（去噪）：
- 边缘检测对噪声非常敏感。第一步是使用高斯滤波器对图像进行平滑处理，以去除噪声。这是一个权衡：去噪太多会导致边缘模糊，去噪太少则噪声会被误检为边缘。
计算梯度强度和方向：
- 使用类似 Sobel 的算子计算每个像素的梯度幅度和方向。
非极大值抑制：
- 这是一个“细化”边缘的关键步骤。它只保留梯度幅度在梯度方向上是局部最大值的点。这意味着对于一条粗边缘，只有中间最亮的线会被保留下来，从而得到细化的、单像素宽的边缘。
双阈值检测与边缘连接：
- 设定两个阈值：一个高阈值 T_high，一个低阈值 T_low。
- 强边缘：梯度幅度 > T_high，这些肯定是边缘。
- 弱边缘：梯度幅度在 T_low 和 T_high 之间，这些可能是边缘，也可能是噪声。
- 边缘连接：只有那些与强边缘相连接的弱边缘点才被确认为真正的边缘，并保留下来。这确保了边缘的连续性，并抑制了孤立的噪声点。

阈值分割算法：是区域分割算法中代表性的分割算法，通过选定一个阈值将图像转换为二值图像，从而分割出目标区域。常用的有全局阈值、基本自适应阈值方法、动态阈值方法和基于熵的二值化方法

全局阈值：对整个图像使用同一个固定的阈值T

基本自适应阈值方法：当图像不同区域的光照不均匀时，全局阈值会失效，不使用全局统一的阈值，而是为图像中的每一个像素点单独计算其阈值。这个阈值取决于该像素周围邻域的灰度分布

计算局部阈值：通常取像素邻域（如一个15x15的窗口）内灰度值的加权平均值或高斯加权平均值，然后减去一个常数C

动态阈值方法：通过统计学的角度，寻找一个阈值T，使得根据T分割后的两类像素（前景和背景）的类内方差最小，或者说类间方差最大。换句话说，就是让分割后的两类区别尽可能大，每一类内部尽可能相似

过程：

计算图像的灰度直方图。
遍历所有可能的阈值T（0-255）。
对于每个T，计算前景和背景两类像素的类间方差。
选择使类间方差最大的那个T作为最佳全局阈值

基于熵的二值化方法：寻找一个阈值T，使得分割后的二值图像所包含的信息量最大。或者说，这个阈值应该最好地区分前景和背景所代表的两类信息

过程：它计算不同阈值下，前景区域和背景区域的熵值，并找到一个阈值使得某种信息度量（如最大熵、最小交叉熵）最优化

基于聚类的图像分割算法：是一种将图像中的像素依据相同特征而划分为几个不同组的方法，常见的方法有K-means、均值漂移、基于密度的聚类

K-means：流程：

确定簇数K：用户需要预先指定希望将图像分割成多少个区域（K个簇）。这是K-Means最大的缺点之一。
初始化：随机选择K个像素点作为初始的簇中心（质心）。
迭代过程：
- 分配步骤：计算每个像素点到K个质心的距离（如欧氏距离），将其分配给距离最近的质心所在的簇。
- 更新步骤：重新计算每个簇的质心（即该簇内所有像素点特征向量的平均值）。
终止：重复迭代，直到质心的位置不再发生显著变化（即分配关系稳定）。

均值漂移：它通过密度估计来寻找数据分布的模式（密度峰值）。想象在特征空间里，数据点密集的地方密度高，像一个“山顶”；稀疏的地方密度低，像“山脚”。算法就是让每个点都朝着它所在的“山坡”向上爬，直到爬到山顶。所有爬到同一个山顶的点就属于同一个簇。

流程：

对特征空间中的每一个点，定义一个以其为中心的窗口（通常是一个圆形区域）。
计算这个窗口内所有点的均值。
将窗口的中心移动到该均值处（这就是“漂移”）。
重复步骤2和3，直到收敛（即中心不再移动）。这个最终的收敛点就是一个簇的质心。
将经历类似漂移路径（最终收敛到同一个质心）的所有点归为一类

基于密度的聚类：簇是由密度相连的点的最大集合构成的，而不同于其他簇或噪声的点存在于低密度区域，将高密度区域连成一片，低密度区域视为边界或噪声

基于深度学习的图像分割方法有全监督学习和弱监督学习两种类型

全监督学习：指完备数据集下预测模型的学习过程，完备数据包括训练样本中的两部分，一个是用向量、矩阵表示的事件或目标的实例，还有一个是指示真实情况的标签

弱监督学习：即数据集中标签信息不完备，不能完全对应预测任务。据信息不完备情况，又分不完全监督、不精确监督和不正确监督学习三类

基于深度学习的图像分割方法通常采用不同的网络架构，其中最具代表性的是卷积神经网络CNN和Transformer模型。

基于CNN模型：CNN 核心架构包括输入层、卷积层、池化层、输出层

基于Transformer模型：初期主要被用于自然语言领域，后因谷歌研究人员提出ViT模型，被应用于图像领域。在图像领域Transformer需要将二维图像分割成块，打包后线性嵌入，对位置和类别标识，后将数据在编码器中训练以分类

ViT更适用于大规模数据集，但与CNN相比，其在卷积操作中不能很好地归纳偏置，难以捕捉低层特征，需要大规模数据弥补，所以Transformer模型对提取全局视野的特征更具优势。

CNN的归纳偏置：

局部性：图像中有意义的特征（如边缘、纹理）通常存在于局部相邻的像素之间。
平移不变性：一个特征（比如猫耳朵）无论出现在图像的哪个位置，它都应该是同一个特征。

CNN通过卷积操作将这些偏置“硬编码”到了它的架构中。卷积核只在局部感受野内操作（满足局部性），并且同一个卷积核会滑过整个图像（满足平移不变性）。这使得CNN天生就非常适合处理图像，在数据量有限的情况下，也能快速、高效地捕捉到像边缘、角点这样的低层特征。

ViT的归纳偏置：
ViT的架构源自为自然语言处理设计的Transformer，其本身对图像数据几乎没有强假设。

它将图像切分成一系列 patch（图像块），然后将这些 patch 视为一个序列（如同句子中的单词）。
其核心是自注意力机制，该机制允许序列中的任何两个 patch 之间直接进行交互，无论它们相隔多远。

ViT没有内置“局部性”和“平移不变性”的假设。它需要从数据中自己学习“相邻的像素可能相关”以及“一个物体无论在哪都还是那个物体”这些概念

ViT的劣势：难以捕捉低层特征，需要大规模数据

因为缺少局部性的硬编码，ViT在训练的初期，其注意力可能是非常分散和随机的。它需要花费更多的“精力”去学习那些对CNN来说几乎是天生的规律，比如一个边缘是由相邻的亮暗像素构成的。在数据量不足时，ViT可能无法有效学习这些基础特征，导致效果不如CNN。既然ViT没有先验知识，那就必须通过海量的数据来“喂”给它，让它亲眼目睹成千上万种边缘、纹理、物体的各种形态，从而被迫自己总结出“局部性”和“平移不变性”等规律。只有当数据量足够大时，ViT才能学到这些基础且重要的视觉规律。

深度学习还有基于循环神经网络(RNN) 、生成对抗网络(GAN)、残差网络(ResNet) ,长短时记忆网络(LSTM) 等网络架构的模型

语义分割：语义分割即是把每个像素都打上标签，区分类别但不区分类别中具体单位。语义分割的方法往往与各网络架构相结合进行，如基于全卷积网络(FCN) 、深度解码网络(DeepLab) 、U-Net、Mask R-CNN

实例分割：此种分割方法不仅区分类别，还区分类别中每一个个体。与语义分割类似，实例分割不仅标记像素所属的类别，还标记属于不同物体实例的像素

全景分割：全景分割任务中包含不可数物体（如草)和可数的实例(如人、车等)，可理解成语义分割和实例分割的结合，即每个像素都分配一个语义标签，和一个实例 ID，语义标签和实例 ID 都相同的像素被认为是属于同一个对象。

深度学习通过构建多层神经网络，自动学习数据中复杂特征的表示，以实现对数据的有效分析和理解

自1998年CNN被提出后，学者在此基础上研究并提出了很多经典的网络算法模型，如 AlexNet、GoogLeNet、VGG、ResNet等：

AlexNet：是首个应用于图像分类的卷积神经网络变体。AlexNet采用ReLU激活函数，彻底解决了“梯度消失”的问题

GoogLeNet：提出 Inception 模块以结合不同尺度的卷积，在专注于加深网络结构的同时，增加网络的宽度，减少参数量并防止过拟合

VGG：VGG 开启了3×3卷积堆叠时代，卷积核变小，可捕捉更复杂和抽象的高层语义特征，提升了分类性能

ResNet：此模型及其恒等映射机制的设计是为了解决深度学习中的退化现象，即神经网络会随着层数的增加，性能反而下降的问题

DenseNet：该模型摒弃了通过宽度和深度来提升性能的策略，转而采用密集连接结构作为网络的核心，让每一层能与前面所有层短路相连，从而最大化特征的重用。DenseNet在加强了特征传播、减少参数的同时提升了模型效率，广泛用于图像分类

数据集：

PASCAL VOC数据集：常用于检测和识别以及图像分割等任务。该数据集包含来自20个不同类别的物体的图片和对应的标注信息，如人、猫、狗等，同时还包含了大量的难以识别的背景图片

Cityscapes 数据集：是用于城市场景理解的大规模数据集，取景于50个不同的欧洲城市，包括图像和视频，涵盖道路、建筑物、车辆、行人等类别内容。

CamVid数据集：包含了701个图像序列，涵盖了多种交通场景，包含32个不同的类别，如道路、建筑物、车辆、行人等。

COCO数据集：涵盖了80个不同类别的实例级注释的标签集，包括人、动物、家具等。

标准实例分割数据集 LVIS：LVIS 是一个包含164K图像、超过1000类的数据集，具有200多万个高质量的分割实例，是基准数据集。

评价指标：

MIoU ：IoU是一种常用的评价指标，用以判断分割结果与真实标注之间的重合程度。均交并比MIoU即为所有类别IoU的平均值，用于衡量模型在像素级别上预测结果与真实标注的重叠程度，对多类别分割、不平衡数据分割友好。

ACC：即准确率，表示正确分类样本数量所占模型预测总样本数量的比例。

精确率(Precision) ：Precision 表示模型预测为正例的所有样本中，预测正确样本的占比。

召回率(Recall) ：Recall表示所有真实标签为正的样本中，有多大百分比被预测出来。

F1值：召回率和精确率的调和均值，适用于不平衡数据集，但在样本比例不同时可能不适用。

还有均像素精度(MPA) 、特异性(SPE) 、灵敏度(SEN) 、Dice系数等指标来度量模型之间的算法性能差异，评估算法的性能

应用：在医学影像领域中，它能自动地判断病灶，辅助诊断病情，突破人力的瓶颈；在自动驾驶领域，它能帮助车辆判断红绿灯、行人和道路，从而实现自动驾驶；在安防监控领域，它能识别可疑人员和行为；在图像编辑领域，它能实现抠图、替换背景等功能

基于深度学习的二分图像分割综述

基于深度学习的二分图像分割方法

将其划分为三类方法：基于全局-局部信息、基于辅助信息和基于扩散模型的方法

基于全局-局部信息：

核心思想：

局部信息（来自浅层网络）：包含高分辨率的细节特征（如边缘、纹理），对于精确定位边界至关重要。
全局信息（来自深层网络）：包含经过高度抽象语义特征（如物体的整体形状、类别），感受野大，对于理解“是什么” 至关重要。
直接下采样会丢失局部细节，导致边界模糊；不下采样则难以获得全局上下文，导致误判。因此，这类方法的核心是设计机制来有效融合多尺度特征。
典型技术与模型：
1. 编码器-解码器结构：基础框架。编码器（下采样）提取特征，解码器（上采样）恢复分辨率。
  - U-Net：通过跳跃连接将编码器的局部特征与解码器的语义特征直接拼接，是此类方法的典范。
2. 金字塔池化模块：在网络的末端或中间，并行使用不同大小的池化核或空洞卷积，以捕获多尺度上下文信息。
  - PSPNet, DeepLab系列：使用空间金字塔池化（SPP/ASPP）来理解不同范围的上下文。
3. 注意力机制：让网络自动学习特征的重要性。
  - 空间注意力：关注“在哪里”（哪些像素区域更重要）。
  - 通道注意力：关注“是什么”（哪些特征通道更重要）。

基于辅助信息：

将分割任务从一个单纯的“图像到掩码”的映射，转变为一个 “（图像 + 辅助信息）到掩码”的条件映射

交互式分割：
- 信息类型：用户点击、 scribbles（涂鸦）、边界框。
- 工作原理：用户提供少量正向（前景）和负向（背景）的点击，模型实时生成分割结果。若不满意，用户可补充点击，模型迭代优化。它实现了“人机闭环”。
- 代表：Iterative Interactive Segmentation。
文本引导分割：
- 信息类型：自然语言描述。
- 工作原理：利用视觉-语言模型（如CLIP），将文本描述和图像区域进行关联。例如，输入“一只黑色的猫”，模型会精确分割出符合描述的目标。
- 代表：CLIPSeg。
参考图像分割：
- 信息类型：另一张包含目标物体的图像。
- 工作原理：给定一张查询图像和一张有标注的参考图像，模型在查询图像中分割出与参考图像中指定的同类或同一物体。
- 代表：一些少样本分割方法。

基于扩散模型：

从判别式模型转向了生成式模型

传统判别式模型：直接学习从图像到分割图的映射函数 P(mask | image)。可以理解为“看图填空”。
扩散模型：不直接预测掩码，而是学习一个去噪过程。它从一个纯随机噪声开始，在以输入图像为条件的引导下，一步步“去噪”，最终“生成”出一个清晰的分割图
工作流程：
1. 训练：
  - 前向过程：对一张真实的分割图（GT Mask）逐步添加噪声，直到变成完全的高斯噪声。
  - 反向过程：训练一个U-Net去学习如何从第 t 步的带噪掩码，预测出第 t-1 步的噪声（或更干净的掩码）。条件图像会在每一步都注入网络，引导去噪方向。
2. 推理：从一个随机噪声开始，利用训练好的去噪U-Net，进行多步迭代去噪，最终生成高质量的分割图。

它们的目标完全不同：

训练：目标是教会U-Net一个“技能”——即如何从带噪的图片中预测出噪声。
推理：目标是使用已经学会这个技能的U-Net来完成一项“任务”——即从纯噪声中生成一张分割图

二分图像分割DIS：一种新兴的图像分割任务

不同于目前主流的分割方法，如语义分割、实例分割、显著性目标检测和伪装目标检测等，DIS专注于将图像中的前景对象与背景进行精确分离，且无需依赖分割目标中与类别相关的特征

语义分割：核心是类别识别

实例分割：在语义分割基础上，进一步区分同一类别的不同个体

显著性目标检测：找出图像中最“引人注目”的前景物体

伪装目标检测：显著性目标检测的“逆问题”，找出那些与背景高度相似、难以察觉的目标

这些方法的共同点：它们在训练和推理时，都或多或少地依赖目标物体的类别或外观先验。

训练时：模型通过学习大量“人”、“车”、“猫”的数据，掌握了这些类别的共性特征（比如人有四肢，车有轮子）。
推理时：当遇到一个物体，模型会先判断它属于哪个已知类别，然后利用该类别的特征模板来辅助完成分割。

DIS 的目标不是识别“物体是什么”，而是精确地勾勒出“物体在哪里”的边界，无论这个物体是它从未见过的，剥离掉“识别”的包袱，专注于“分离”的技艺

第 1 行图像为显著目标，而第 2 行是伪装目标。第 1 列是原始图像，第 2 列是真值图(Ground Truth, GT)，后 4 列为相关分割方法：DIS(第 3 列)、显著性目标检测(第 4列)、伪装目标检测(第 5 列)和实例分割(第 6 列)

在对显著图像进行分割时，第 4 列的显著目标检测可对目标的整体框架进行完整分割，但其在细节处理上存在不足，尤其是对于目标与背景边界模糊的区域，分割精度较低。对第 2 行的伪装目标进行分割时，伪装目标检测(第 5 列)能对整体进行分割，但容易出现漏检。

DIS(第 3 列)展现出显著的优势。它既能精准勾勒目标整体轮廓，又能精细处理细节，尤其在边界模糊区域表现出色

基于深度学习的 DIS 方法

Qin 等人[13]首次系统性地提出二分图像分割任务，并构建以卷积神经网络作为主干的分割模型 IS-Net

IS-Net 的结构可以分为三个部分：真值图编码器、图像分割组件和中间监督模块

GT 编码器负责将高精度的分割掩码编码为高维特征；

图像分割组件基于 U2-Net 架构[22]，具备强大的多尺度特征融合能力，能够高效处理大尺寸输入图像，并精准捕捉目标对象的细小结构；

中间监督模块则通过特征同步操作，将 GT 编码器生成的高维特征与分割模型的中间特征进行对比，从而实现对分割模型的直接监督。

基于全局-局部信息的 DIS 方法：基于全局-局部信息[34-37]的二分图像分割方法通过结合整体上下文与局部细节提升分割精度，解决高级特征供过于求，忽略浅层空间信息的问题

高级特征供过于求，忽略浅层空间信息：

浅层网络（靠近输入）：感受野小，处理高分辨率特征图。它们保留了大量局部细节信息，如物体的边缘、纹理、角点等。这些是精确定位边界的关键。
深层网络（靠近瓶颈）：感受野大，处理低分辨率特征图。它们学习的是高度抽象的全局语义信息，如“这是一个人”、“这是一辆车”。这些信息用于理解“是什么”，避免将阴影误判为物体。
为了识别物体，网络必须深入到深层去获取强大的语义信息。但这个过程就像通过一个越来越窄的“漏斗”。
问题：在信息流向深层的途中，大量的空间细节信息（来自浅层）在池化等操作中被丢弃了。最终，在网络的瓶颈处，虽然模型“知道”了图片里有什么（语义信息丰富，即“供过于求”），但它“忘记”了这个物体的精确边界在哪里（空间信息丢失）

根据处理机制的不同，将相关方法进一步分为基于多编解码流多阶段和基于单流单阶段的方法。

流：指信息处理的主干路径，如一个完整的编码器-解码器结构可被视为一个“流”。
阶段：指一个清晰的、通常顺序执行的子任务。

基于多编解码流多阶段：不指望一个网络能一次性解决所有问题。而是将复杂的二分分割任务分解成多个连续的、逻辑上分离的子任务，每个子任务由一个专门的子网络（通常是一个编解码流）来处理。前一个阶段的输出作为后一个阶段的输入或指导

典型工作流程：
1. 第一阶段（粗分割）：第一个编解码流负责处理全局上下文，生成一个粗糙的、大概率的分割图。这个阶段的目标是“找对位置”，确保目标物体被大致识别出来，但边界可能很模糊。
2. 第二阶段（精修）：第二个（或更多）编解码流以原始图像和第一阶段的分割结果作为输入。它的任务是专注于边界区域，利用第一阶段的结果作为先验，结合原始图像的细节，对边界进行精细化处理。
3. 这个过程可以迭代多次，实现“粗→细→更细”的优化。

基于单流单阶段的方法：设计一个统一、强大的单一网络，在一次前向传播中直接从一个端（输入图像）到另一个端（精细分割图）完成所有任务。它依靠网络内部复杂的模块设计来隐式地同时完成全局语义理解和局部细节恢复。

典型架构：
- 一个（可能非常深或结构精巧的）编码器-解码器网络。
- 通过在网络内部集成跳跃连接、注意力机制、金字塔池化模块等组件，在特征提取和上采样的过程中直接、密集地融合来自浅层（局部细节）和深层（全局语义）的特征。

基于多流多阶段的 DIS 方法：根据网络架构的分支进一步分为单分支和双分支网络

多阶段：指任务流程被分为多个串行的步骤（如：粗分割 → 边界精修）。
多分支：指在网络同一层级或阶段内，存在并行的、处理不同信息的子网络（如：一个分支处理外观，一个分支处理边缘）

单分支多阶段网络：每个阶段内部只有一个主干网络，但多个阶段串联

双分支多阶段网络：在某个或所有阶段内部，存在两个并行协作的分支网络

Pei 等人将输入图像从一张高分辨图像变成两张输入图像(高分辨率获取细节特征，低分辨率图像获取语义特征)送入共享骨干网络中，提出的主体-结构聚合模块通过注意力机制和残差操作实现全局与局部信息的有效融合。然而，该方法在处理细长物体时可能会存在细节丢失或过分割的问题

基于辅助信息的 DIS 方法：

“单一 RGB 图像在面对光照不足或过强、透明物体和反光等场景下会出现误检或漏检情况。现有研究表明频域信息、深度信息和热红外图像等辅助模态在面对低光照等挑战时，能够解决单模态的困境，同样也被 DIS 任务引入其中。根据引入的辅助信息不同，可以进一步将其分为基于频域信息、基于梯度的方法和基于其他辅助信息的方法”

单一 RGB 图像：指的是我们日常生活中最常见、最普通的彩色数码照片，只包含一种类型的信息，即由红、绿、蓝三种颜色通道混合而成的颜色信息

单一指的是：单模态

只有一个传感器来源： 图像数据仅来自一个标准的彩色相机。
只有一种数据类型： 图像中每个像素只记录了颜色值，不包含其他物理信息（如距离、温度等），比如：(255, 0, 0) 是纯红色。(0, 255, 0) 是纯绿色。(255, 255, 0) 是红色和绿色混合成的黄色。(128, 128, 128) 是灰色

一张 RGB 图像本质上就是一个巨大的、包含 R、G、B 三组数值的表格

解决方案：引入辅助模态：频域信息、深度信息和热红外图像

频域信息：通过傅里叶变换等工具，将图像从“空间域”（我们平常看到的像素阵列）转换到“频域”。低频信息代表图像中平滑、整体的变化（如大块颜色），高频信息代表图像中快速、剧烈的变化（如边缘、噪声、细节）
在光照不足时，RGB图像的质量在空间域很差，但其频域信息可能仍保留着重要的结构线索（如物体的边缘）。通过分析频域，可以增强这些被弱化的结构特征，辅助模型在暗光下“看清”轮廓

深度信息：记录场景中每个像素点到相机的距离信息，形成一张深度图。它反映了物体的几何形状和空间布局
解决透明/反光问题：一个玻璃杯在RGB图像里是透明的，但它的几何实体是存在的！深度相机（如iPhone的LiDAR）可以直接测出这个杯子的三维形状。因此，深度信息提供了完全不依赖于颜色和纹理的、关于物体存在的强有力证据。
改善分割边界： 深度 discontinuity（深度不连续）通常恰好就是物体的边界，这能帮助模型更精确地分割物体。

热红外图像：捕捉物体表面散发的红外辐射（热量），形成热成像。它反映的是物体的温度分布。
解决光照问题： 热成像完全不依赖可见光！无论是在漆黑的夜晚还是炫目的强光下，一个恒温物体（如人、动物、车辆）的热辐射特征都是稳定且显著的。这完美弥补了RGB在极端光照下的短板。
提供独特语义： 活体生物通常比环境温度高，这使得在复杂背景中检测人或动物变得非常容易。

根据引入的辅助信息不同，可以进一步将其分为基于频域信息、基于梯度的方法和基于其他辅助信息的方法

基于频域信息的方法：将RGB图像和其对应的频域信息（如振幅谱、相位谱）一起输入网络。网络学习如何结合空间域的外观信息和频域的结构信息来做出更鲁棒的决策。

基于梯度信息的方法：不仅使用原始的深度图，还利用深度梯度图来强调物体的几何边界。这为网络提供了更清晰的几何轮廓线索。

基于其他辅助信息的方法：除了频域和梯度之外的其他模态，最常见的就是热红外图像。
做法： 构建一个双分支网络：一个分支处理RGB图像，另一个分支处理热红外图像。然后通过特定的融合模块（如加法、注意力机制）将两个分支的特征融合，最终输出分割结果。

从 “单一感知” 到 “多维感知”

基于频域信息的 DIS 方法：第一类具体利用频域信息，通过将图像从空间域转换到频域，提取出与目标相关的频率特征

“如 Zhou等人提出一种基于频域先验的分割方法。频域先验生成器使用离散余弦变换将图像从空间域转换到频域，利用固定滤波器和可学习滤波器联合提取有价值的频域先验。然后通过特征协调模块减少多尺度特征之间的异质性，并借助频域先验嵌入模块将频域先验嵌入到多尺度特征中，从而显著提升模型对细粒度物体边界的识别能力”

步骤：

生成频域先验：

- 离散余弦变换 是傅里叶变换的一种近亲，它同样能将图像分解成不同频率的成分。低频代表大块的色块，高频代表细致的边缘和纹理。
- 固定滤波器： 这是研究者基于人类知识设计的过滤器。比如，一个专门用来“捕捉”所有高频边缘信息的滤波器。
- 可学习滤波器： 这是让模型自己通过数据学习出来的过滤器。模型在大量图像训练中，自己会发现：“哦，原来对于分割任务，这些和那些频率模式特别有用。”
- 联合提取： 将人类先验（固定滤波器）和数据驱动（可学习滤波器）的优势结合起来，得到一份非常全面和精准的“频域先验”。

协调多尺度特征：

- 现代神经网络通常在不同深度（尺度）提取特征。浅层特征分辨率高，包含很多细节（如边缘）；深层特征分辨率低，但包含了高级的语义信息（如“这是一只猫”）。
- 问题是，这些不同尺度的特征在统计特性上可能存在差异（异质性），直接融合效果不好。
- 异质性体现在：
  - 语义层级不同：
    - 浅层特征（高分辨率）： 来自网络早期层。更关注细节，如边缘、颜色、纹理。但语义性弱，不知道“这是什么物体”。
    - 深层特征（低分辨率）： 来自网络后期层。经过多次下采样和抽象，更关注高级语义，如知道“这是一只猫”，但空间细节大量丢失。
  - 统计分布不同：
    - 不同层特征图的数值分布（均值、方差） 可能差异很大。这就像把不同量纲的数据（如米、公斤、秒）直接相加，会导致融合效果不佳。
  - 感受野不同：
    - 深层特征的一个像素对应原始图像的一大片区域（大感受野），而浅层特征的一个像素只对应一个小区域（小感受野）。它们的“视野”完全不同。
- 特征协调模块的常见技术手段：
  - 归一化：目的是调整不同特征层的数值分布，使它们具有相似的均值和方差。
    - 批量归一化： 最常用的方法。它会对一个批次（Batch）内的每个特征通道进行归一化，使其均值为0，方差为1。
      - 协调后的特征 = BN(原始特征)
    - 实例归一化/层归一化： 在某些场景下也可能被使用。
  - 通道注意力：不同特征通道的重要性是不同的。协调模块会学习一个权重，来重新校准每个通道的贡献。
    - 实现方式（如SE模块）：
      1. 压缩： 对特征图进行全局平均池化，将每个通道的二维信息压缩成一个标量。
      2. 激励： 通过一个小型全连接神经网络，学习每个通道的权重（一个0到1之间的值）。
      3. 重标定： 将学习到的权重乘回到原始特征的对应通道上。
  - 可学习的变换：
    - 调整通道数： 使用1x1卷积可以将不同层特征图的通道数统一到同一个数值，方便后续的相加或拼接操作。
    - 特征变换： 1x1卷积本身也是一个线性变换，可以对特征进行微调，使其更好地适应融合过程。

将频域先验嵌入到多尺度特征中：

- 现在我们已经有了：
  1. 协调好的多尺度空间特征
  2. 提取出的宝贵频域先验
- 这个模块的作用，就是将“频域蓝图”作为指导信息，巧妙地注入到每一个尺度的空间特征中去。

“Jiang 等人通过引入频域和空域信息来提升分割性能，提出结合频域和尺度感知的深度神经网络。该网络的核心在于：一方面，通过多模态融合模块整合空间域和频域信息，增强图像特征的表示能力；另一方面，引入协作尺度融合模块，打破传统串行结构，保留编码阶段的高分辨率信息。”

“尺度感知”：指神经网络能够同时理解并处理图像中不同大小的目标的能力

引入协作尺度融合模块，打破传统串行结构，保留编码阶段的高分辨率信息：

传统串行结构（U-Net为代表）的问题：
- 编码器（下采样路径）像是一个“漏斗”，逐步从高分辨率特征提取出低分辨率、高语义的特征。
- 解码器（上采样路径）试图利用编码器各层的特征来恢复细节。但这里有个关键缺陷：解码器中的高层特征是在低分辨率基础上进行上采样的，这个过程会引入不精确性。它试图恢复的细节，在编码器阶段可能已经被下采样操作稀释或丢失了。
- 即使是U-Net的跳跃连接，仍然存在一定的局限性。
- 跳跃连接本质上是将编码器的特征“复制并粘贴”到解码器。这是一种单向的补给。高分辨率特征（如E1）本身是“静止”的，它只是被使用，但并没有利用解码器深层传来的高级语义信息来丰富自己
- 跳跃连接通常采用拼接或相加的方式融合特征。这种操作相对简单，可能无法智能地处理不同尺度特征之间的语义鸿沟和统计差异。例如，浅层特征的某些通道可能包含大量与任务无关的背景噪声，直接拼接可能会带来干扰。
- 融合通常只在相同尺度的编码器和解码器层之间进行（E1对应D2，E2对应D3），缺乏跨越多個尺度的、更灵活的交互
“协作尺度融合模块”：
- 核心： “打破传统串行结构”意味着它不依赖单一的、自底向上的路径。
- 做法： 它很可能是一种并行或密集连接的结构。它会直接将编码器早期阶段的高分辨率、弱语义特征（包含丰富的边缘、点、线等细节），与解码器后期阶段的低分辨率、强语义特征（包含“知道这是什么物体”的全局信息）进行融合。
- 它不仅将浅层特征送给深层，也可能将深层的高级语义信息作为指导，反过来去增强和净化浅层的高分辨率特征。这是一个“协作”的过程，所有尺度的特征都在相互帮助、相互优化。
- 它可能采用注意力机制（如非局部注意力或Transformer）来进行融合。例如，它可以动态地计算不同尺度特征的重要性权重，选择性地增强有用的上下文信息，抑制无关的细节噪声，而不是简单地全部拼接。
- 它可能让高分辨率特征更早地、持续地参与到全局上下文的建模中，而不是等到解码的最后几步才通过跳跃连接被使用。这确保了高分辨率信息不仅能恢复细节，还能影响对整体语义的理解。

基于梯度图的 DIS 方法：

“Zheng 等人发现频域先验对精细的特征处理不完整，因而在 DIS 任务中引入梯度，首先通过 Transformer 块提取图像特征，之后通过空洞空间金字塔池化的不同尺度卷积核捕获图像在不同尺度上的特征并进行多上下文融合，最后在解码器中引入双边参考，原图像裁剪为与相应解码器输出特征大小作为内部参考，梯度先验作为外部参考，可以将更多的注意力吸引到梯度信息更为丰富的区域。”

梯度直接反映了图像亮度的变化率，也就是边缘和细节。这与频域中的高频信息相关，但梯度是一种更直接、在空间域中更容易操作和理解的边缘表示。

步骤：

特征提取基础：

Transformer 块提取图像特征：
- 目的： 替代传统的CNN骨干网络。Transformer拥有强大的全局建模能力，通过自注意力机制，能让图像中任意两个像素点直接建立联系。这有助于模型理解目标的整体结构
ASPP）进行多上下文融合：
- 目的： 解决目标尺度多变的问题。
- 做法： ASPP使用多个并行的、具有不同空洞率的卷积核。这些卷积核能在不降低分辨率（不下采样） 的情况下，拥有不同的感受野。
  - 小空洞率的卷积 -> 小感受野 -> 捕捉局部细节。
  - 大空洞率的卷积 -> 大感受野 -> 捕捉全局语境。
  - 标准卷积（例如一个3x3的卷积核）：它在输入特征图上滑动，每次处理一个3x3的局部区域。这个局部区域的大小就是这个操作的感受野
    在深度网络中，为了识别更大的物体和理解全局语境，我们需要更大的感受野
    传统的方法：
    - 使用更大的卷积核（如5x5，7x7），但这会急剧增加计算量和参数量。
    - 使用池化层（下采样）来快速扩大感受野。但池化会降低空间分辨率，导致细节信息丢失，这对于需要精确输出分割图的任务是致命的。
  - 空洞卷积（膨胀卷积）：既能保持特征图的分辨率不变，又能有效扩大感受野
    在标准卷积核的权重之间注入“空洞”（零元素），从而在不增加参数数量的前提下，大幅扩大感受野
    空洞率：定义了卷积核中各个点之间的间隔。空洞率为1就是标准卷积；空洞率为2意味着在核的每个元素之间插入1个零；空洞率为3则插入2个零，以此类推。
- 融合： 将这些不同尺度的特征融合起来，让模型同时具备看细节和看整体的能力。

创新的解码器设计——双边参考：原图像裁剪为与相应解码器输出特征大小作为内部参考，梯度先验作为外部参考，可以将更多的注意力吸引到梯度信息更为丰富的区域

- 做法： 将原始RGB图像下采样（裁剪），使其尺寸与解码器中当前层的特征图尺寸完全一致。
- 作用： 这提供了一个空间对齐的、最原始的视觉线索。这有助于模型将高级特征与原始图像内容对齐，防止在上采样过程中“跑偏”。
做法： 预先计算好输入图像的梯度图（例如使用Sobel、Canny等算子）。这张梯度图清晰地标明了图像中所有可能边缘的位置。同样，将其调整到与解码器当前层特征相同的尺寸。
“注意力吸引到梯度信息丰富的区域”：
- 过程：
  1. 将内部参考（下采样的原图）和外部参考（梯度先验）与解码器自身的特征进行结合。
  2. 注意力机制会根据梯度先验的强度，生成一张注意力权重图。在梯度值高的地方（边缘），权重就大；在平坦区域，权重就小。
  3. 将这张权重图作用到解码器特征上，显著增强边缘区域特征的响应，同时抑制非边缘区域的特征。

"将频域、梯度图作为辅助信息，能够帮助网络在复杂背景等情况下对细节和边界进行更精准的感知和分割。然而，频域和梯度信息与原始 RGB 图像之间存在显著的语义差异，直接融合可能导致信息冲突或语义不一致，进而影响分割精度。此外，梯度图在提供边缘信息的同时，也可能引入噪声或伪影，进一步干扰网络对边界的准确学习。"

“语义差异” 指的是不同模态信息所表达的含义和关注点不同。

RGB图像的语义是：“这是什么？” 它包含颜色、纹理、物体类别等丰富的表观信息。一个像素是红色的，它可能是苹果或消防车。
梯度图的语义是：“这里变了！” 它只关心亮度的变化，不关心变化的是什么。一个像素有高梯度，它可能是物体的边缘，也可能是阴影、纹理或者噪声。
频域信息的语义是：“图像的组成成分是什么？” 它关注的是频率分布，而不是具体的物体。

如果网络不加区分地学习梯度图，它就会把噪声、伪影和纹理也当作重要的边界来学习，导致分割结果出现大量毛刺、错误碎片和粗糙的边缘。

基于其他辅助信息的 DIS 方法：除了上述两种方式，部分研究者也提出使用其他辅助信息的方式

“Zhou 等人采用掩码作为先验引导有效解决目标定义模糊问题，提升复杂场景下细节保留能力，首先通过融合模块融合先验信息，之后经识别和细化两个阶段提升分割精度”

掩码：指的是一个粗略的、低分辨率的显著性图或分割图。它不需要精确标注目标的边界，只需要大致标出目标可能存在的区域。

它直接解决了“目标定义模糊问题”。在复杂场景中，网络可能无法确定哪里是重要的“目标”，哪里是可以忽略的“背景”。

流程：识别 + 细化：

识别

目标： 快速、准确地定位目标的主体部分。
做法： 网络利用融合后的特征（图像特征+先验掩码），生成一个初始的分割结果。这个结果已经比输入的粗略先验掩码好很多了，它能更准确地区分前景和背景，抓住目标的主要结构。

第二阶段：细化

目标： 恢复细节，锐化边界，生成像素级精准的分割图。
做法： 将第一阶段的输出（改进后的掩码）和原始图像的特征再次输入到一个细化子网络（通常是一个更注重局部细节的小型网络）。这个阶段的任务是专注于边界区域，进行“微操”，修正错误，补全缺失的细节。

“而 Liu 等人利用伪深度图(通过深度模型生成的深度估计)提供深度完整性先验，结合图像块(64 个 patch)的局部细节特征。同时，构建多模态融合框架，并设计特征选择与提取模块(FSE)，在该模块中融入跨模态注意力机制，以实现深度信息与 RGB 信息的有效融合。”

伪深度图：通过一个深度估计模型从单张RGB图像中预测出来的。它每个像素的值代表了估计的物体距离相机的远近。

深度完整性先验：

深度： 提供了物体的几何结构和空间布局信息。例如，它知道一个物体是凸起的、凹下去的，还是平坦的。
完整性： 意味着这个先验信息能够帮助模型理解物体的完整轮廓。在RGB图像中，如果目标和背景颜色相似，边界会很难区分。但深度信息通常会在物体的边界处出现明显的 discontinuity（不连续），这为确定精确的边界提供了强有力、且与颜色无关的线索。
先验： 这是预先提供的辅助知识，用于引导主模型进行决策。

图像块： 将图像分割成64个更小的区域（patches）进行处理。
作用： 这种做法允许模型聚焦于局部区域的精细细节（如纹理、边缘）

多模态融合框架（特征选择与提取模块与跨模态注意力机制）：

跨模态注意力机制：
- 目的： 让两种模态（RGB和深度）进行“对话”，相互指导，决定在什么位置、应该更相信哪种信息。
- 工作原理（简化）： 机制会计算一个“注意力图”。
  - 例如，在物体边界位置： 深度特征会大声说：“注意！我这里有一个巨大的深度变化，肯定是边界！” 于是，注意力机制就会给这个位置的深度特征分配很高的权重，让它在融合后的特征中占主导地位，从而帮助RGB图像精准定位边界。
  - 在物体内部纹理区域： RGB特征可能会说：“我这里的颜色和纹理信息很丰富，能清楚说明这是什么材料。” 于是，注意力机制就会降低深度特征的权重，让RGB信息主导物体内部的识别。
特征选择与提取：
- 选择： 上述注意力机制的过程就是动态的特征选择。它不是固定地认为深度或RGB谁更好，而是根据图像的具体内容（空间位置）进行自适应选择。
- 提取： 在选择了重要信息后，FSE模块会进一步通过卷积等操作，从加权融合后的信息中提取出最有利于分割任务的新特征表示。

通过引入辅助信息不仅可以增强模型对目标对象的感知能力，提升分割精度，让模型更好地适应多种复杂场景，在具有精细内部结构的分割上表现良好，如在医学图像中精准分割细小病变组织、在工业检测中识别微小裂纹等，展现出广阔的应用前景。

但会存在以下局限：辅助信息的质量与结果直接相关，若辅助信息质量不佳，可能会引入误差，进而导致分割结果的偏差，对具有噪声干扰和与语义差异大的情况下可能会表现不佳；此外，辅助信息的加入也有可能会导致计算量的增加。

基于扩散模型的 DIS 方法：扩散模型具有强大的生成能力和稳定的训练过程，能够生成高质量图像并处理复杂任务，同时具备高度灵活性和稳定性

传统模型是“判别式”的，它学习的是从图像到分割图的直接映射（“这张图里，哪个像素属于目标？”）

扩散模型本质是“生成式”的，它学习的是数据的分布，最擅长的是从混沌（噪声）中生成秩序（清晰图像）。

扩散模型用于DIS的过程，可以清晰地划分为训练和推理两个阶段：

第1步：前向加噪过程（训练阶段）

目的： 教会模型理解“一张完美的分割图是如何一步步被破坏成噪声的”。
过程： 取一张人工标注好的、高质量的真实分割图（x₀），逐步地向它添加随机噪声。经过很多步（比如1000步）后，这张分割图就变成了一幅完全随机的噪声（x_T）。
结果： 我们得到了一个“训练对”的序列：(x₀, x₁), (x₀, x₂), ..., (x₀, x_T)，其中x_t是第t步的噪声图。

第2步：反向去噪训练（训练阶段的核心）

目标： 训练一个神经网络（通常是U-Net）来学习上述加噪过程的逆过程。
输入：
1. 第t步的噪声分割图 (x_t)
2. 对应的原始RGB图像 (I) —— 这是条件信息。
3. 时间步t —— 告诉模型现在处于去噪的哪一步。
期望输出： 模型被训练来预测出添加到x_t中的噪声。
本质： 模型在学习一个函数：f_(θ)(x_t, I, t) = 预测的噪声。如果它能准确预测噪声，那么从x_t中减去这个预测的噪声，就能得到更接近真实x₀的x_(t-1)。

第3步：迭代去噪推理（使用模型进行分割）

起点： 从一张纯噪声图片（x_T）开始。
条件引导： 同时，我们输入想要分割的原始RGB图像 (I)。
过程： 重复以下步骤T次（从T到0）：
1. 将当前噪声图x_t和原始图像I、当前步数t输入到训练好的U-Net中。
2. 网络预测出噪声。
3. 从x_t中减去预测的噪声，得到“更干净”的x_(t-1)。
终点： 经过T步迭代后，纯噪声x_T被“净化”成了一张清晰、高质量的分割图x₀

“然而由于扩散模型强大的先验表示能力，Yu 等人将其引入到 DIS 任务中，提出了DiffDIS。具体而言，DiffDIS 通过单步去噪策略，大幅缩减推理耗时；同时，引入辅助边缘生成任务与细节平衡交互注意力机制，增强对象边界的细节保留能力，并调和扩散模型的概率性与分割任务的确定性需求之间的矛盾。”

扩散模型本质是生成模型，它的输出是概率性的——即对于同一个输入噪声，它可能生成多种合理的结果。而图像分割是一个判别式任务，它要求一个确定性的结果——对于一张给定的输入图像，应该输出唯一、精确的分割图。

原始扩散模型需要成百上千步的迭代去噪（从x_T -> x_{T-1} -> ... -> x_0），虽然效果好，但推理速度极慢，无法满足实际应用的需求

采用单步去噪策略。这是一种“蒸馏”思想。在训练阶段，它仍然学习多步去噪的复杂映射。但在推理时，模型被训练成仅用一步，就能从噪声x_T直接预测出最终的分割图x_0，大幅缩减推理耗时

扩散模型虽然生成能力强，但有时会“过度想象”，在应该保持尖锐的边缘处产生平滑或模糊的效果。这对于要求像素级精度的分割任务是致命的。

辅助边缘生成任务与细节平衡交互注意力机制：模型不仅学习从噪声中预测分割图，还并行地学习预测一张清晰的物体边界图。边缘生成任务为模型提供了一个强大的、明确的约束，迫使模型必须关注像素间的尖锐过渡。通过共同学习这两个相关任务，模型内部的特征表示会变得更加注重边界信息，从而显著提升对物体细节，尤其是边界的保留能力。

扩散模型的“概率性”意味着它在生成时有一定随机性，而分割的“确定性”要求结果稳定、精确。

让“分割图生成”和“边缘图生成”这两个分支进行深度对话与相互校正，两个分支的特征通过注意力机制进行交互。边缘的确定性约束概率：清晰、尖锐的边缘图为分割图的生成提供了一个确定性的空间约束。分割的区域信息指导边缘：分割图提供的区域语义信息也能帮助边缘分支判断哪些边缘是重要的（如物体轮廓），哪些是应该抑制的（如物体内部的纹理边缘）

基于扩散模型的方法虽然在高分辨率图像分割任务中展现出强大的性能，但相关文献有限，研究仍处于早期阶段，在计算成本高且显存需求大等方面存在问题，有待进一步探索。

数据集：DIS5K[13]是目前仅有被广泛使用的 DIS 数据集，其总共有 5470 张高质量的图像及其对应的精细标注分割掩码,覆盖 225 个类别的对象，包含显著、以及细致等不同特征的物体。

为了支持模型训练、验证和测试，DIS5K 数据集被划分为三个子集：DIS-TR(训练集，包含 3000 张图像)、DIS-VD(验证集，包含 470 张图像)和DIS-TE(测试集，包含 2000 张图像)。

为了更全面地评估模型在不同复杂度场景下的性能，DIS-TE 进一步被细分为四个子集，其形状复杂度呈递增顺序。

评价指标：用 F-测量[46]、S-测量[47]、E-测量[48]、平均绝对误差(Mean absolute error, MAE)[49]和人类纠正努力(Human Correction Efforts, HCE)[13]五个常用指标

F-测量：通过调和平均数结合了精确率和召回率，确保两者都较高时，F-测量才会高，其值越接近 1 表示模型性能越好

S-测量：用来衡量预测分割结果和真值图之间的结构相似性，综合区域感知和对象感知的结构相似性度量，其数值越大，代表性能越好

E-测量：结合局部像素值和图像级别的统计数据，以全面评估预测图的质量。它旨在同时捕捉图像级别的统计信息和局部像素匹配信息，从而提供一个更全面的性能评估

平均绝对误差MAE：衡量的是预测图与真值图之间的平均绝对差异，其数值越小，表明两张图像越接近，模型算法性能越好

人类纠正努力 HCE：针对 DIS 任务所提出的一个新的评估指标，它近似于纠正错误预测所需的人工努力，以满足现实世界应用中特定的准确性要求

主要有两种常用的操作:

(1)沿着目标边界进行点选择以形成多边形;

(2)基于区域内相似像素强度的区域选择。

这两种操作都对应于人类操作算子的一次鼠标点击。因此，这里的HCE 是通过鼠标点击次数的近似数量来量化的。当HCE 的值越小时，证明所需要的鼠标点击次数越少，误分割的区域越少。

为纠正假阳性(False Positive，FP)和假阴性（False Negative，FN）区域，需要对错误边界进行标记，这个标记次数即为鼠标点击次数，即 HCE。其中 TP 所包围的 FNTP 区域(图 4c)和 TN 包围的 FPTN 区域(图 4e)可以通过一键式区域选择进行校正。而对于校正 FNN 区域，需要对其与 TN相邻的边界手工标记优势点(图 4b)。同样，对校正 FPP区域，只需要标记其与 TP 区域相邻的边界（图 4d）

实验对比与分析：本文在 DIS5K 数据集上对现有已公布代码或检测结果的算法进行定性和定量实验对比与分析，主要包括以下方法：DIS 基准(IS-Net[13])，三种基于全局-局部信息的 DIS 方法(UDUN[23]、BDIS[24]、MVANet[26]、S 2DiNet[27])，三种基于辅助信息的 DIS 方法(FP-DIS[28]、FSANet[29]、BiRefNet[30]、PDFNet[32])，一种基于扩散模型的 DIS 方法(DiffDIS[33])。

定量对比与分析：

基于扩散模型的 DIS 方法大多都优于其余两类方法，这一优势可归因于其使用的单步去噪范式，将扩散模型的去噪过程转化为一个端到端框架，显著提升了分割精度

在基于全局-局部信息的 DIS 方法中，单流单阶段(如 MVANet)的方法优于多流多阶段(如 BDIS)的方法，这可能是由于多流多阶段的方法在特征融合过程中存在信息冗余和丢失的情况，而 MVANet 将全局和局部信息整合到单一流程中，这种设计不仅减少了信息冗余，还避免了多阶段方法中可能出现的特征丢失问题

单流单阶段方法，在模型轻量化方面取得了显著进展。尽管其在某些指标上可能与其他方法相比略显不足，但该方法通过优化模型架构，有效减少参数量和计算复杂度

在基于辅助信息的 DIS 方法中，使用伪深度图的方法(如 PDFNet)优于基于频域信息和梯度图的方法(如 BiRefNet 和 FSANet)，这是因为伪深度图可以提供物体之间的相对空间关系，可以更好帮助模型理解物体的边界、形状等细节信息。

定性实验与讨论：

上述方法在多目标、低对比度、有干扰物、复杂背景和具有丰富细节等场景下的定性实验对比

基于扩散模型的 DIS 方法(第 10 列)对目标的分割更为精确、完整、边界清晰。这可能得益于所采用直接单步去噪的方法替代传统的多步迭代去噪过程和网络中使用多种注意力相结合的方式，使得该类方法能够在复杂场景下获得更好的分割效果。

在基于多流多阶段的 DIS 方法(第 4 列)和基于频域的 DIS 方法(第 7 列)对目标的感知并不完整，且不可避免地会存在背景噪声。例如，尽管 FP-DIS(第 7 列)可以确定物体的大致位置，但会存在漏检和误检等情况，如第 1 行中将袋子上的图案当作噪声。正如前文所述，频域特征与空间域特征存在语义差异，融合过程中会导致信息丢失

基于单流单阶段的 DIS 方法(第 6 列)和基于伪深度图的 DIS 方法(第 9 列)分割相对更为完整，但在部分细节处理上仍不能与 GT 图相媲美。

对于具有精细结构的图像（第 5 行）以及目标与背景相似度较高的情况（第 6 行），现有方法仍然会出现一定程度的误检和漏检现象。

面临挑战和未来展望：

面临挑战：

对于部分低对比度图片的细节捕捉和边界分割不完整。目前高分辨率图像中存在大量细微结构，如植物的细枝、动物的毛发等，这些细节对于准确分割至关重要。然而，现有的方法在处理这些非常细微的特征时仍存在不足，难以精准地捕捉到每一个细节。当目标的边界与背景颜色或纹理高度相似时，目标与背景的过渡区域往往难以区分，导致边界分割不准确。

特征融合和信息交互不完全。现有方法通过设计模块来充分融合低层细节特征与高层语义特征信息，但仍然存在多尺度特征融合时难以平衡不同尺度特征关系，致融合后信息丢失，影响性能或者会产生冗余影响效率；另一方面，特征提取网络中层间信息交互不足，低层细节特征与高层语义特征关联未充分发挥，缺乏丰富上下文信息。

数据标注与生成难度大。DIS 任务中高分辨率图像标注难度大、成本高，目前只有 DIS5K 一个数据集，限制了大规模标注数据集构建。目前使用在合成图像的网络虽有潜力，但存在场景偏差、噪声错误、样本多样性不足等问题，影响合成数据质量与有效性。

未来展望：

精准捕捉分割细节和边界。目前的方法对边界和细节的处理还没有特别精准，未来的研究可以设计更精细的多尺度特征融合模块，更好地平衡不同尺度特征之间的关系以及捕捉低对比度下的细节特征，从而更精准地分割每一个细节。

探索多模态融合。目前的任务都是在 RGB 图像上进行实验，现有方法引入频域、梯度和伪深度图证明了其有效性，未来可以继续探索如何更有效地结合频域和梯度信息。除此之外，可以在其中引入其他模态数据来探究其在 DIS 任务上的有效性。

弱监督与半监督学习拓展。目前 DIS 任务需要大量的精细标注数据，而人工标注成本高昂，未来弱监督和半监督学习方法将得到更广泛的应用。通过利用少量标注数据和大量未标注数据。或者借助其他辅助信息指导模型训练，减少对大量精确标注的依赖。

查看全文

http://www.dtcms.com/a/414474.html