当前位置：首页 > news >正文

[VL|RIS] RSRefSeg 2

news 2025/9/14 5:32:31

1. BaseInfo


Title	RSRefSeg 2: Decoupling Referring Remote Sensing Image Segmentation with Foundation Models
Adress	https://arxiv.org/pdf/2507.06231
Journal/Time	-
Author	北航
Code	https://github.com/KyanChen/RSRefSeg2
Read	2508

2. Creative Q&A

目标是提升分割的精度。

处理复杂的语义关系
实现精确的跨模态对齐
传统的RRSIS方法通常采用一个“耦合”的三阶段流程：双模态编码、跨模态交互和像素解码。
目标定位（“在哪里”）和边界描绘（“如何描绘”）-> 粗定位后精细分割

3. Concrete

利用CLIP卓越的跨模态对齐能力来进行目标定位，并借助SAM强大的分割泛化能力来生成精细的掩码

3.1. Model

在这里插入图片描述
两个阶段：粗粒度对象定位和细粒度掩码生成。
第一阶段 (定位)：使用一个双模态编码器（基于CLIP）来处理低分辨率图像和文本描述 (T)，以生成粗略对齐的跨模态特征 (F) 。然后，一个级联二阶提示器（Prompter）利用这些特征来生成空间感知的提示 §，这些提示包含了目标的粗略位置信息。1+2
第二阶段 (分割)：使用一个掩码生成器（基于SAM）接收这些提示 §，并结合高分辨率的原始图像，来生成最终精细的像素级分割掩码。3

双模态对齐的语义特征编码器：使用CLIP作为双模态编码器，在预对齐的语义空间中处理文本描述和低分辨率的图像，以生成初步的定位提示。
采用预训练的 SigLIP（CLIP 变体）作为基础架构，其文本编码器处理自然语言描述，视觉编码器处理低分辨率遥感图像；
文本编码：提取词级特征与句子级特征，前者包含类别、属性、空间关系等细粒度信息，后者捕捉全局语义；
视觉编码：移除 CLIP 视觉编码器的池化层，保留空间分辨率，使特征映射与图像空间位置对应
域适应优化：针对遥感图像与自然图像的域差异（如尺度多变、低对比度），采用低秩适应（LoRA）微调.

参数高效微调 + 低秩适应
对应论文中的公式2，全部微调利用 LoRA，将训练的参数量从 d×d 减少到了 2×d×r，大大降低了计算和存储成本。
在CLIP的文本编码器（clip-t）、视觉编码器（clip-v）以及SAM的视觉编码器（sam-v）的骨干网络中都集成了低秩微调参数。
消融实验（表VI），论文系统地分析了不同秩（rank, 即r的大小）对模型性能的影响。
对编码器进行微调能显著提升性能。秩的大小需要平衡：太小则适应能力不足，无法有效迁移知识；太大则容易过拟合。
视觉编码器（clip-v, sam-v）比文本编码器（clip-t）需要更高的秩，因为遥感图像与自然图像的视觉差异远大于文本描述的差异。

级联二阶指称提示器（Prompter）：这是为了解决原生CLIP在处理包含多个实体的复杂文本描述时容易出现的“目标误激活”问题而设计的。该提示器通过将文本嵌入分解为互补的语义子空间，并进行迭代式的图文特征交互，以实现隐式的级联推理，从而提高定位的准确性。先激活潜在目标区域，再优化定位提示.
将文本语义转化为 SAM 可理解的空间提示，解决 CLIP 在多实体场景中的目标误激活问题
参考语义分解
将词级文本特征分解为两个正交语义子空间，分别捕捉 “核心实体” 与 “约束条件”（如 “飞机” 与 “左上角的”）；
采用双向交叉注意力机制促进子空间交互，通过正交约束最大化语义差异，避免信息冗余
跨模态交互
一阶交互：语义子空间1与视觉特征通过交叉注意力激活潜在目标区域
二阶交互：语义子空间2与基于一阶交互目标区域进一步优化激活图，强化对空间关系（如 “右侧”“下方”）的建模；
堆叠 2 层交互模块，平衡推理能力与计算成本
提示生成
融合稀疏提示与密集提示后输入 SAM，既提供精确位置线索，又保留区域上下文.
提示引导的精细化掩码生成器：将前一阶段生成的粗略定位提示（包括稀疏的点/框和密集的概率图）输入到SAM中。SAM再结合高分辨率的原始图像信息，最终生成像素级精度的分割掩码。
基于 SAM 生成符合文本描述的像素级掩码，利用高分辨率图像细节优化边界。
SAM 适配策略：
冻结 SAM 的大部分参数，仅微调掩码解码器和视觉编码器的 LoRA 层，平衡泛化能力与遥感适配性；
特征融合与掩码输出：
将密集提示编码为特征，与图像特征相加融合；
稀疏提示与预设的掩码过滤令牌、IoU 预测令牌拼接，输入解码器生成 4 个候选掩码，选择最优者作为输出
Loss
总损失包含三部分，平衡语义对齐与分割精度。
分割损失，CE + DICE
正交约束损失，施加在语义分解出的两个子空间嵌入上，通过最小化它们之间的余弦相似度，强制这两个子空间在语义上相互独立、互为补充，从而促进有效的隐式推理。
对齐损失，用于辅助约束第一阶段（CLIP部分）的特征提取，以提高定位的准确性。它包含三个子项：对密集提示的分割约束、视觉与文本特征之间的空间维度对齐约束以及一个类似原始CLIP的样本维度对比损失。

3.2. Training

3.2.1. Setting

sam2.1-hiera-large 和 siglip2-so400m-patch16-512 这两个预训练模型构建
低秩适应（LoRA）的秩（rank）设为 16
提示器（Prompter）中，语义子空间的嵌入向量数量 3, 稀疏提示的嵌入数量 9.
提示器的每个模块（分解、交互、生成）都堆叠了2个块
训练中只更新新引入的LoRA参数、级联提示器参数和SAM的解码器头参数，其他部分保持冻结。
CLIP 输入 512, SAM 输入 1024.
使用AdamW优化器，初始学习率为 1e-4, bs 64, epoch 300
实验在NVIDIA H800 GPUs上进行，并使用BF16精度和DeepSpeed ZeRO Stage 2分布式框架来提升训练效率。

3.2.2 Dataset

RefSegRS：源于 SkyScapes 数据集，含 4420 个影像 - 文本 - 掩码三元组，14 类地物（如道路、建筑），空间分辨率 0.13 米，图像尺寸 512×512 像素。
RRSIS-D：基于 RSVGD 数据集生成，17402 个三元组，20 类地物（如机场、高尔夫球场），分辨率 0.5~30 米，图像尺寸 800×800 像素，包含大量小目标（如车辆、风车）。
RISBench：包含52472 个三元组，26 类地物，分辨率 0.1~30 米，文本描述平均长度 14.31 词，词汇量达 4431 个，语义复杂度高。

3.3. Eval

在这里插入图片描述

3.4. Ablation

编码器中的微调参数 (表VI)：实验表明，对CLIP和SAM编码器进行LoRA微调至关重要。视觉编码器（clip-v, sam-v）比文本编码器（clip-t）从微调中获益更多，因为遥感图像与自然图像的领域差异更大。
级联提示器的影响 (表X)：与标准的单阶段提示器相比，引入级联二阶提示器能显著提升所有评估指标。在此基础上，再集成密集提示（dense prompts）可以带来额外的性能增益。
子空间注意力机制 (表XI)：实验验证了在语义分解模块中，同时使用子空间内部的自注意力（intra-attn）和子空间之间的交叉注意力（inter-attn）是实现最佳性能所必需的。这证明了子空间之间的信息双向交流对于语义融合至关重要。
损失函数组件 (表XV)：系统地分析了各个损失项的贡献。结果显示，用于解耦语义子空间的正交约束损失和用于增强特征对齐的样本级对比损失都对提升模型性能有显著作用。最终，结合分割任务的Dice损失进一步增强了模型表现。
不同版本的骨干网络 (表XVI)：研究了不同规模的CLIP和SAM模型组合。结果发现：对于CLIP，提高输入分辨率比增加参数量对性能的提升更有效；而对于SAM，增加模型参数能持续带来分割性能的提升。这为在不同资源限制下选择最优模型组合提供了指导。
错误分析 (图7)：解耦架构的一大优势是增强了模型的可解释性。通过可视化中间结果（密集提示），可以清晰地判断错误是源于定位阶段（语义理解失败）还是分割阶段（边界描绘不准）。例如，图7的第二行显示了定位准确但分割不佳的情况，而第三行则展示了定位错误但分割看似合理的情况。优势来源：模型的优越性能源于解耦架构的双重增益：在定位阶段，正交子空间投影有效缓解了多实体描述导致的目标误激活；在分割阶段，任务解耦使得掩码生成不受文本干扰，从而保证了边界的清晰和结构的完整。

4. Reference

https://mp.weixin.qq.com/s?__biz=Mzk2NDAyNTEwMA==&mid=2247483744&idx=1&sn=bb4186008b7459ae90684ea5d9f38257&chksm=c54034bb21a218fc534b4b95170edbd3fbe0c156f085c9f15ac4263cf6db9bcb80aa049f659b&mpshare=1&scene=1&srcid=0825tOuQpbSSYPW6eWEX3Bis&sharer_shareinfo=1bc18f7aa1d8b5d57df89c890a5909d3&sharer_shareinfo_first=1bc18f7aa1d8b5d57df89c890a5909d3#rd