当前位置: 首页 > news >正文

【论文学习】交互式图像分割顶会论文

交互式图像分割顶会论文

FocalClick: Towards Practical Interactive Image Segmentation

CVPR 2022年

理解

FocalClick:迈向实用的交互式图像分割

交互式图像分割:用户通过手动交互(如点击、画线、涂鸦)辅助算法完成图像中目标物体的分割,介于 “完全手动标注” 和 “纯自动分割” 之间

摘要

交互式分割允许用户通过正负点击提取目标掩码。尽管此前已有许多研究,但学术方法与工业需求之间仍存在差距:首先,现有模型效率不足以在低功耗设备上运行;其次,在优化已有掩码时表现不佳,无法避免破坏正确部分。FocalClick 通过在局部区域预测和更新掩码,一次性解决了这两个问题。为提高效率,我们将对整图的慢速预测分解为对小区域的两次快速推理:在目标区域(Target Crop)进行粗分割,在焦点区域(Focus Crop)进行局部细化。为使模型适用于已有掩码,我们定义了 “交互式掩码修正” 子任务,并提出渐进合并(Progressive Merge)解决方案。渐进合并利用形态学信息决定保留和更新的区域,使用户能有效优化任何已有掩码。FocalClick 以显著更小的浮点运算量(FLOPs)取得了与最先进(SOTA)方法相当的结果,在修正已有掩码时也表现出显著优势。代码和数据将在github.com/XavierCHEN34/ClickSEG发布。

理解1

首先,现有模型效率不足以在低功耗设备上运行;其次,在优化已有掩码时表现不佳,无法避免破坏正确部分。

低功耗设备:算力有限、内存瓶颈和功耗限制

用户基于已有分割结果(如自动生成的掩码、历史标注数据),通过交互(点击、涂鸦)修正错误,而非从零开始分割。

核心需求:在保留原有正确部分的前提下,仅更新错误区域

理解2

为提高效率,我们将对整图的慢速预测分解为对小区域的两次快速推理:在目标区域(Target Crop)进行粗分割,在焦点区域(Focus Crop)进行局部细化。

目标区域粗分割:快速定位目标所在的局部区域,生成粗粒度掩码。

焦点区域局部细化:在目标边界等关键区域进行高精度细化,提升分割细节。

理解3

为使模型适用于已有掩码,我们定义了 “交互式掩码修正” 子任务,并提出渐进合并(Progressive Merge)解决方案。渐进合并利用形态学信息决定保留和更新的区域,使用户能有效优化任何已有掩码。

 “交互式掩码修正” 子任务:用户基于已有掩码(如自动分割结果、历史标注)进行交互修正时,模型需在保留正确部分的前提下,仅更新错误区域。

渐进合并的核心机制:形态学信息决定保留和更新的区域

形态学操作:通过膨胀、腐蚀、开闭运算等分析掩码的几何结构,提取以下关键特征:连通区域、轮廓完整性和拓扑结构

形态学特征能有效区分 “应保留的正确结构” 与 “需修正的错误区域”

  1. 保留区域:满足 “大面积连通 + 轮廓规则” 的区域,如医学图像中完整的器官掩码;
  1. 更新区域:用户点击位置及其相邻的形态学低可信度区域(如模糊边缘、小面积离散像素)。

Interactive Image Segmentation with Cross-Modality Vision Transformers

ICCV 2023年

理解

基于跨模态视觉 Transformer 的交互式图像分割

跨模态视觉 Transformer模态定义:指不同类型的感知数据,如 RGB 图像(色彩模态)、深度图(空间距离模态)、红外图像(热辐射模态)等;Transformer 作用:利用自注意力机制建模不同模态间的语义关联,例如让 RGB 图像的纹理特征与深度图的几何特征相互增强

摘要

交互式图像分割旨在通过人工引导从背景中分割目标,其输入为图像、点击、涂鸦、多边形和边界框等多模态数据。近年来,视觉 Transformer 在多个下游视觉任务中取得了巨大成功,已有部分研究尝试将这一强大架构引入交互式分割任务。然而,以往工作忽略了两种模态之间的关系,直接采用自注意力机制处理纯视觉信息的方式。在本文中,我们提出了一种简单而有效的基于点击的交互式分割网络,该网络采用跨模态视觉 Transformer。跨模态 Transformer 利用互信息来更好地指导学习过程。在多个基准数据集上的实验表明,与之前的最先进模型相比,所提出的方法取得了更优异的性能。此外,我们的方法在避免失败案例方面的稳定性显示出其作为实用标注工具的潜力。代码和预训练模型将在https://github.com/lik1996/iCMFormer上发布。

理解1

然而,以往工作忽略了两种模态之间的关系,直接采用自注意力机制处理纯视觉信息的方式。在本文中,我们提出了一种简单而有效的基于点击的交互式分割网络,该网络采用跨模态视觉 Transformer。跨模态 Transformer 利用互信息来更好地指导学习过程。

两种模态:

  1. 视觉模态:图像本身的 RGB、深度等视觉信息;
  1. 交互模态:用户点击、涂鸦等交互信号(如坐标位置、交互类型)

以往方法的局限性:将交互信号简单编码为坐标嵌入,与视觉特征拼接后输入自注意力机制,本质上仍是 “视觉信息为主,交互信息为辅” 的单模态思维;未显式建模 “交互信号如何影响视觉特征理解”,例如用户点击位置与图像中目标边界的语义关联被忽略。

跨模态 Transformer:

互信息的作用:衡量两个模态信息的依赖程度,即 “交互信号能在多大程度上解释视觉特征的语义”

通过最大化视觉模态与交互模态的互信息,让模型学习到两者的内在关联

http://www.dtcms.com/a/458610.html

相关文章:

  • 网站主办单位负责人网站竞价如何做
  • 吴恩达机器学习课程(PyTorch 适配)学习笔记:3.2 降维技术详解(PCA)
  • 一元购网站建设多少钱手机网站生成代码
  • 天津免费做网站公司网站建设30元
  • 天津智能网站建设制作做电商要关注哪些网站
  • 商店网站源码淮安做网站
  • Effective STL 第4条:调用empty()而不是检查size()是否为0
  • 家具网站开发环境与工具铜陵市网站建设
  • Mysql初阶第三讲:Mysql数据类型
  • 网络营销价格北京seo公司工作
  • 徐州cms模板建站建设购物网站多少钱
  • 视频网站点击链接怎么做的工业设计出来做什么
  • 怎样把网站做的漂亮个人网站用主机做服务器
  • 备案掉了网站会怎样开发一套小区多少钱
  • Java基础 10.8
  • 长湖南营销型网站简单网站建设公司
  • 计算机基础——浏览器、算法、计算机原理和编译原理等
  • 网站制作企业有哪些下页
  • 企业做外贸网站常用术语通江移动网站建设
  • vultr做网站广东软件公司排名
  • [1]python爬虫入门,爬取豆瓣电影top250实践
  • 学习网站开发体会与感想wordpress多语言插件:qtranslate
  • 辽源市网站建设html怎么制作网页
  • 旅游网站建设的目标蓝天下品牌运营业务展示
  • 网站死循环青岛网红打卡景点
  • 域名过期做的网站怎么办门户网站建设与推广方案
  • 文档做网站闵行营销型网站制作
  • 网页设计报告模板免费wordpress安装后优化
  • 重庆制作网站公司简介网上商城运营推广方案
  • 网站代码怎么打开青岛制作公司网站