当前位置：首页 > news >正文

(aaai2025) Towards Open-Vocabulary Remote Sensing Image Semantic Segmentation

news 2025/7/17 22:41:00

1、背景

Open-Vocabulary 是一个比较火的话题，目前我找到最好的学习资料是 VALSE2024 上李冠彬老师的课程《开放词汇视觉感知》，视频链接：https://www.bilibili.com/video/BV1uf421d7Vk/ 三个多小时的课程系统的介绍了基于开放词汇的图像分类、目标检测、分割等任务。

开放词汇可以理解为是一种特殊的 zero-shot learning。 Zero-shot 是在别的类别（base）训练模型，可以识别没见过的类别（unseen），这里有一个严格的限制：unseen类别在训练时一定是不可见的。

开放词汇可以理解为更加宽松的zero-shot，预训练的多模态大模型（如ChatGPT，CLIP等）见多识广，能够在下游任务泛化。开放词汇的实现方法是：来自vision-language model (VLM) 的 text encoder 见过了很多的图像和文本，有很强的能力将它们对齐，也有很强的能力将 unseen的目标关联到对应的类别编码上。

2、研究动机与方法

在地震、洪水应急响应任务中，需要快速解译遥感图像。没有时间对大量数据进行标注与训练，这样研究开放词汇遥感图像语义分割就尤为重要。这个工作主要有两个贡献：

数据集：构建了LandDiscover50K，包含 51,846 张图像、40 个类别，覆盖多种遥感场景。
模型：提出GSNet框架，融合遥感领域先验（RSI specialist）和通用视觉语言模型（CLIP）的能力，通过 Dual-Stream Image Encoder （DSIE）、Query-Guided Feature Fusion（QGFF）和 Residual Information Preservation Decoder (RIPD)实现精准分割。

LandDiscover50K 数据集是现有多个遥感图像语义分割数据集的集成，这里不过多介绍。作者提出的 GSNet 还是受了CVPR2024的 CAT-SEG启发，不同之处是加了一个遥感图像编码器分支。GSNet 主要框架如下图所示，视觉特征编码器包括CLIP和RSI backbone，一方面利用通用特征，另一方也利用遥感图像的特有特征。

wechat_2025-05-27_160229_989