【论文学习】交互式图像分割顶会论文
交互式图像分割顶会论文
FocalClick: Towards Practical Interactive Image Segmentation
CVPR 2022年
理解
FocalClick:迈向实用的交互式图像分割
交互式图像分割:用户通过手动交互(如点击、画线、涂鸦)辅助算法完成图像中目标物体的分割,介于 “完全手动标注” 和 “纯自动分割” 之间
摘要
交互式分割允许用户通过正负点击提取目标掩码。尽管此前已有许多研究,但学术方法与工业需求之间仍存在差距:首先,现有模型效率不足以在低功耗设备上运行;其次,在优化已有掩码时表现不佳,无法避免破坏正确部分。FocalClick 通过在局部区域预测和更新掩码,一次性解决了这两个问题。为提高效率,我们将对整图的慢速预测分解为对小区域的两次快速推理:在目标区域(Target Crop)进行粗分割,在焦点区域(Focus Crop)进行局部细化。为使模型适用于已有掩码,我们定义了 “交互式掩码修正” 子任务,并提出渐进合并(Progressive Merge)解决方案。渐进合并利用形态学信息决定保留和更新的区域,使用户能有效优化任何已有掩码。FocalClick 以显著更小的浮点运算量(FLOPs)取得了与最先进(SOTA)方法相当的结果,在修正已有掩码时也表现出显著优势。代码和数据将在github.com/XavierCHEN34/ClickSEG发布。
理解1
首先,现有模型效率不足以在低功耗设备上运行;其次,在优化已有掩码时表现不佳,无法避免破坏正确部分。
低功耗设备:算力有限、内存瓶颈和功耗限制
用户基于已有分割结果(如自动生成的掩码、历史标注数据),通过交互(点击、涂鸦)修正错误,而非从零开始分割。
核心需求:在保留原有正确部分的前提下,仅更新错误区域
理解2
为提高效率,我们将对整图的慢速预测分解为对小区域的两次快速推理:在目标区域(Target Crop)进行粗分割,在焦点区域(Focus Crop)进行局部细化。
目标区域粗分割:快速定位目标所在的局部区域,生成粗粒度掩码。
焦点区域局部细化:在目标边界等关键区域进行高精度细化,提升分割细节。
理解3
为使模型适用于已有掩码,我们定义了 “交互式掩码修正” 子任务,并提出渐进合并(Progressive Merge)解决方案。渐进合并利用形态学信息决定保留和更新的区域,使用户能有效优化任何已有掩码。
“交互式掩码修正” 子任务:用户基于已有掩码(如自动分割结果、历史标注)进行交互修正时,模型需在保留正确部分的前提下,仅更新错误区域。
渐进合并的核心机制:形态学信息决定保留和更新的区域
形态学操作:通过膨胀、腐蚀、开闭运算等分析掩码的几何结构,提取以下关键特征:连通区域、轮廓完整性和拓扑结构
形态学特征能有效区分 “应保留的正确结构” 与 “需修正的错误区域”
- 保留区域:满足 “大面积连通 + 轮廓规则” 的区域,如医学图像中完整的器官掩码;
- 更新区域:用户点击位置及其相邻的形态学低可信度区域(如模糊边缘、小面积离散像素)。
Interactive Image Segmentation with Cross-Modality Vision Transformers
ICCV 2023年
理解
基于跨模态视觉 Transformer 的交互式图像分割
跨模态视觉 Transformer:模态定义:指不同类型的感知数据,如 RGB 图像(色彩模态)、深度图(空间距离模态)、红外图像(热辐射模态)等;Transformer 作用:利用自注意力机制建模不同模态间的语义关联,例如让 RGB 图像的纹理特征与深度图的几何特征相互增强
摘要
交互式图像分割旨在通过人工引导从背景中分割目标,其输入为图像、点击、涂鸦、多边形和边界框等多模态数据。近年来,视觉 Transformer 在多个下游视觉任务中取得了巨大成功,已有部分研究尝试将这一强大架构引入交互式分割任务。然而,以往工作忽略了两种模态之间的关系,直接采用自注意力机制处理纯视觉信息的方式。在本文中,我们提出了一种简单而有效的基于点击的交互式分割网络,该网络采用跨模态视觉 Transformer。跨模态 Transformer 利用互信息来更好地指导学习过程。在多个基准数据集上的实验表明,与之前的最先进模型相比,所提出的方法取得了更优异的性能。此外,我们的方法在避免失败案例方面的稳定性显示出其作为实用标注工具的潜力。代码和预训练模型将在https://github.com/lik1996/iCMFormer上发布。
理解1
然而,以往工作忽略了两种模态之间的关系,直接采用自注意力机制处理纯视觉信息的方式。在本文中,我们提出了一种简单而有效的基于点击的交互式分割网络,该网络采用跨模态视觉 Transformer。跨模态 Transformer 利用互信息来更好地指导学习过程。
两种模态:
- 视觉模态:图像本身的 RGB、深度等视觉信息;
- 交互模态:用户点击、涂鸦等交互信号(如坐标位置、交互类型)
以往方法的局限性:将交互信号简单编码为坐标嵌入,与视觉特征拼接后输入自注意力机制,本质上仍是 “视觉信息为主,交互信息为辅” 的单模态思维;未显式建模 “交互信号如何影响视觉特征理解”,例如用户点击位置与图像中目标边界的语义关联被忽略。
跨模态 Transformer:
互信息的作用:衡量两个模态信息的依赖程度,即 “交互信号能在多大程度上解释视觉特征的语义”
通过最大化视觉模态与交互模态的互信息,让模型学习到两者的内在关联