当前位置: 首页 > news >正文

(aaai2025) Towards Open-Vocabulary Remote Sensing Image Semantic Segmentation

1、背景

Open-Vocabulary 是一个比较火的话题,目前我找到最好的学习资料是 VALSE2024 上李冠彬老师的课程《开放词汇视觉感知》,视频链接:https://www.bilibili.com/video/BV1uf421d7Vk/ 三个多小时的课程系统的介绍了基于开放词汇的图像分类、目标检测、分割等任务。

开放词汇可以理解为是一种特殊的 zero-shot learning。 Zero-shot 是在别的类别(base)训练模型,可以识别没见过的类别(unseen),这里有一个严格的限制:unseen类别在训练时一定是不可见的。

开放词汇可以理解为更加宽松的zero-shot,预训练的多模态大模型(如ChatGPT,CLIP等)见多识广,能够在下游任务泛化。开放词汇的实现方法是:来自vision-language model (VLM) 的 text encoder 见过了很多的图像和文本,有很强的能力将它们对齐,也有很强的能力将 unseen的目标关联到对应的类别编码上。

2、研究动机与方法

在地震、洪水应急响应任务中,需要快速解译遥感图像。没有时间对大量数据进行标注与训练,这样研究开放词汇遥感图像语义分割就尤为重要。这个工作主要有两个贡献:

  • 数据集:构建了LandDiscover50K,包含 51,846 张图像、40 个类别,覆盖多种遥感场景。
  • 模型:提出GSNet框架,融合遥感领域先验(RSI specialist)和通用视觉语言模型(CLIP)的能力,通过 Dual-Stream Image Encoder (DSIE)、Query-Guided Feature Fusion(QGFF)和 Residual Information Preservation Decoder (RIPD)实现精准分割。

LandDiscover50K 数据集是现有多个遥感图像语义分割数据集的集成,这里不过多介绍。作者提出的 GSNet 还是受了CVPR2024的 CAT-SEG启发,不同之处是加了一个遥感图像编码器分支。GSNet 主要框架如下图所示,视觉特征编码器包括CLIP和RSI backbone,一方面利用通用特征,另一方也利用遥感图像的特有特征。

wechat_2025-05-27_160229_989

QGFF 实现图像和文本特征的融合,即计算图像和每个类的相似性。接着图像特征再与融合结果进一步精炼,通过一系列上采样与卷积,得到分割的输出结果。

实验部分可以参考作者论文,这里不过多介绍。

相关文章:

  • 全局事务标识符
  • mapbox-gl-draw simple_select 状态下单个选中
  • linux安装MYSQL
  • android平台驱动开发(四)--系统属性节点控制GPIO
  • 【数据库】-4 mysql权限语句
  • Disruptor—核心源码实现分析(三)
  • 全球地表水与地下水盐度数据(1980-2019)含45,103个地表水站点与208,550个地下水站点
  • RAG综述:大模型检索增强生成全解析
  • C++数据结构 : 二叉搜索树
  • 【Elasticsearch】使用脚本删除索引中的某个字段
  • SLOT:测试时样本专属语言模型优化,让大模型推理更精准!
  • 中车靶场,网络安全暑期实训营
  • FOFA网络空间测绘初学者指南:像探险家一样探索数字世界
  • 什么是数据驱动?以及我们应如何理解数据驱动?
  • ICMP与TCP端口:网络层与传输层解析
  • Flutter 实现6个验收码输入框
  • 实现单例模式的6种方法(Python)
  • 防爆手机VS普通手机,区别在哪里?
  • 获取oracle的HQL日志,采取参数日志,拼装SQL语句
  • Oracle初识
  • 网站编辑可以做运营吗/合肥网络推广
  • php mysql网站开发教程/做网络推广怎么收费
  • 对政府网站建设的认识/seo推广如何做
  • 公司推广网站怎么做/网站策划书的撰写流程
  • 做网站哪一家比较好/他达拉非
  • 中国幼儿在线幼儿园网站建设/网络营销有什么特点