当前位置：首页 > news >正文

[VL|RIS] ReferSAM

news 2025/8/2 12:14:04

论文基本信息 (Basic Information)

标题 (Title)	ReferSAM: Unleashing Segment Anything Model for Referring Image Segmentation
Adress	https://ieeexplore.ieee.org/document/10819432
Journal/Time	TCSVT
Author	中科院
Code	https://github.com/lsa1997/ReferSAM

1. 核心思想 (Core Idea)

SAM 用于 RIS。通过增强跨模态交互和重新设计提示编码，来释放SAM在RIS任务中的潜力。
在这里插入图片描述

－　视觉-语言交互器 (Vision-Language Interactor, VLI)：在SAM的图像编码阶段，将语言特征与多尺度的视觉特征进行细粒度的对齐和融合。
－　视觉-语言提示器 (Vision-Language Prompter, VLP)：聚合对齐后的图文特征，生成密集的（dense）和稀疏的（sparse）两种提示嵌入，以更精确地指导SAM的解码器生成分割掩码。

2. 研究背景与动机 (Background and Motivation)

SAM 能根据点、框等视觉提示分割出任何物体。然而，当提示变为自由形式的文本时，SAM的性能并不理想，因为它缺乏对视觉和语言特征之间进行细粒度交互的机制。
－　SAM　缺乏在像素和词语级别上进行精确对齐的能力。
－　文本的全局特征向量不足以精确地在复杂场景中定位目标，尤其是在描述涉及多个目标时。

3. 方法论 (Methodology)

在这里插入图片描述
主要是利用vit-adapter 将自己的模块插入到 sam 的 encoder 之间的。

3.1 视觉-语言交互器 (Vision-Language Interactor - VLI)

多尺度特征交互：VLI并行于SAM的图像编码器，它额外提取了多尺度的图像特征。这些特征与SAM编码器中间层的特征进行跨注意力（cross-attention）交互，为SAM引入了多尺度的空间先验信息。
图文融合:一个自注意力，两个 crossattn。
上下文令牌 (Context Tokens)：为了解决某些文本描述只关注少数属性而导致对齐不稳定的问题，VLI引入了一组可学习的“上下文令牌”。这些令牌与真实的文本特征拼接在一起，在训练中学习捕捉通用的上下文信息，从而促进更稳定的跨模态对齐。

3.2 视觉-语言提示器 (Vision-Language Prompter - VLP)

稀疏提示 (Sparse Prompts)：通过一组可学习的稀疏提示令牌，从对齐后的图文特征中聚合信息，编码目标的详细属性。论文中默认使用4个稀疏令牌。
密集提示 (Dense Prompts)：通过一个密集的提示令牌（由文本的全局[CLS]特征初始化），先生成一个粗略的分割图。这个粗略的分割图随后被编码成一个密集的提示嵌入，为最终分割提供初步的定位信息。

4. 实验结果 (Experimental Results)

RefCOCO, RefCOCO+, RefCOCOg 以及 gRefCOCO, Ref-ZOM
在这里插入图片描述

4.1 消融

不同的文本编码器（BERT vs. CLIP）以及不同的训练方式（微调 vs. 冻结）：直接将文本编码器的全局特征作为提示送入SAM解码器。结果显示，使用CLIP的基线比使用BERT的要好。在完整的ReferSAM框架下，使用BERT作为文本编码器的效果反而超越了使用CLIP 。冻结BERT编码器会导致性能大幅下降。冻结CLIP编码器的性能反而比微调它要略好一些。
ReferSAM核心组件的贡献分析
上下文与提示令牌数量的探索 (Table VI)：过多的上下文令牌会稀释掉真实文本的语言信号，选择16. 使用4个稀疏提示令牌的效果最好
分割损失函数的验证 (Table VII)：BCE损失和DICE损失。对VLP生成的粗略分割图的监督。