ICCV | 2025 | SkySense V2:面向多模态遥感的统一基础模型
文章目录
- ICCV | 2025 | SkySense V2:面向多模态遥感的统一基础模型
- 创新点
- SkySense V2
- 模型架构
- 统一Transformer主干网络
- 多模态输入处理
- 不同模态空间分辨率的处理方式
- 模态特定提示令牌
- 模型容量扩展
- 整体预训练流程
- 实验
- 4.2 单模态任务
- 场景分类
- 语义分割
- 水平与定向目标检测
- 变化检测
- 4.3 多模态任务
- 多模态分割
- 多模态场景分类
- 4.4 消融实验
- 组件消融研究
- 模态特定提示令牌如何促进预训练?
- 基于查询的语义聚合对比学习捕捉何种特征?
ICCV | 2025 | SkySense V2:面向多模态遥感的统一基础模型
- 论文:https://arxiv.org/pdf/2507.13812?
- 代码:nocodeno \ codeno code
- 会议:ICCV
- 时间:2025
创新点
图 1. 与前身 SkySense 相比,SkySense V2 在 7 类不同任务的 16 个数据集上均取得了更优异的性能,且支持广泛的任务类型。
- 针对现有模型为不同模态设计独立主干导致的参数冗余问题,提出跨模态共享的统一主干架构,通过单一网络处理高分辨率光学、多光谱、合成孔径雷达(SAR)等多模态数据。
- (该主干前两阶段采用 Swin Transformer V2 Blocks 融入视觉先验并降低计算成本,后两阶段使用 vanilla Transformer Blocks 捕捉全局语义,实现窗口与全局自注意力的互补。)
- 为解决多模态数据分辨率差异与特征多样性不足的难题,提出两大专属模块:
- 自适应补丁合并(APM)模块:集成于主干各阶段后,可根据模态分辨率需求动态调整特征尺度
- 模态特定提示令牌(MsP):在后两阶段为每种模态引入可学习提示令牌,通过注意力机制捕捉模态独特属性。
- 针对自然图像 SSL 技术不适配遥感图像多语义分布的问题,提出基于查询的语义聚合对比学习(QSACL)
- 在统一架构基础上集成混合专家(MoE)模块,通过稀疏前馈层替代传统 FFN,在控制计算成本的同时扩展模型容量。
SkySense V2
模型架构
统一Transformer主干网络
本文的统一 Transformer 主干网络是具有四个阶段的分层编码器结构。
- 在前两个阶段,我们采用 Swin Transformer V2 Blocks(SwinV2B)[42] 以融入局部性和平移不变性等重要视觉先验知识。SwinV2B 中的基于窗口的自注意力机制有助于降低计算复杂度,尤其是在这些初始阶段特征空间分辨率较高的情况下。
- 在后两个阶段,我们使用标准 Transformer Blocks(TB)[18],主要基于以下两个原因:首先,这些阶段的特征空间分辨率相对较低,使得全局自注意力的计算成本更易于控制;其次,消融研究表明,全局自注意力能够与基于窗口的自注意力形成互补,使模型获得更强的表示能力。
图 3. SkySense V2 统一 Transformer 主干网络模型概述:除不同的令牌生成器(Tokenizer)外,整个主干网络在不同模态间共享所有参数。
多模态输入处理
依照上图,给定一组基于地理位置信息对齐的的多模态输入(HR高分辨率光学图像、MS多光谱数据、SAR合成孔径雷达数据),采用三个不同的令牌生成器将这些输入处理成令牌序列。在每个令牌生成器中,首先将输入数据划分为不重叠的 4×4 补丁,然后通过线性嵌入层对原始补丁数据进行处理,将其投影为补丁令牌。随后,对这些补丁令牌应用四个阶段的 SwinV2B 或 TB(模态间共享参数)。
不同模态空间分辨率的处理方式
为协调不同模态令牌的空间分辨率,提出自适应补丁合并(APM)模块,并利用其在除第一阶段外的每个阶段选择性地降低空间分辨率。
- 具体而言,对于高空间分辨率的光学图像数据令牌,APM 模块将 2×2 相邻补丁的特征进行拼接,并对 4c 维的拼接特征应用线性层。此过程通过 2×2=4 倍的空间分辨率下采样,将令牌数量减少为原来的 1/4,同时将输出维度设置为 2c。
- 相比之下,对于分辨率较低的多光谱和合成孔径雷达数据令牌,APM 模块通过在输入维度上进行权重平均的线性投影来保持分辨率。
模态特定提示令牌
图 4. 向统一主干网络中添加模态特定提示令牌的示意图。
在后两个阶段为每种模态融入 NNN 个可学习的提示令牌。我们将每个阶段的输入令牌表示为Eij∈Rhjwj×cjE_{i}^{j} \in \mathbb{R}^{h_{j}w_{j} \times c_{j}}Eij∈Rhjwj×cj,其中i∈{HR,MS,SAR}i \in \{HR, MS, SAR\}i∈{HR,MS,SAR},j∈{3,4}j \in \{3, 4\}j∈{3,4},hjh_jhj和wjw_jwj分别为第 jjj 阶段的空间分辨率高度和宽度,cjc_jcj为令牌维度。具体而言:
- 对于每种模态 iii,将模态特定的可学习提示令牌Pij∈RN×cjP_{i}^{j} \in \mathbb{R}^{N \times c_{j}}Pij∈RN×cj插入到第 jjj 阶段第一个块FjF_jFj的输入中。在每个阶段的最后一个块,这些提示令牌被丢弃。整个过程可表示为:
[Edrop,Ei4]=F3([Pi3,Ei3]),[Edrop,Eiout]=F4([Pi4,Ei4]).\begin{array}{l}{[E_{drop}, E_{i}^{4}]=\mathcal{F}_{3}([P_{i}^{3}, E_{i}^{3}]),} \\ {[E_{drop}, E_{i}^{out}]=\mathcal{F}_{4}([P_{i}^{4}, E_{i}^{4}]).}\end{array}[Edrop,Ei4]=F3([Pi3,Ei3]),[Edrop,Eiout]=F4([Pi4,Ei4]).
其中,EdropE_{drop}Edrop表示被丢弃的令牌,EioutE_{i}^{out}Eiout表示主干网络的最终输出令牌。本文设计的模态特定提示令牌通过仅引入少量模态特定参数,在保持完全参数共享的同时增强了特征多样性。
模型容量扩展
针对不同模态的统一主干网络设计显著提高了参数利用效率。为进一步提升模型能力,本研究在主干网络中集成了混合专家(MoE)[33] 模块。选择 MoE 而非简单增加主干网络的宽度和深度,是因为 MoE 通过为单个令牌利用稀疏前馈层(即专家),使模型能够以低得多的计算成本进行预训练。
- 本研究将 MoE 模块插入到最后 L 个 Transformer 块中,替代原有的前馈网络(FFN)层。每个 MoE 模块包含 M 个专家(表示为Ei(⋅)E_i(\cdot)Ei(⋅),i=1,2,...,Mi=1,2,...,Mi=1,2,...,M),这些专家具有与 FFN 相同的结构,并作为独立网络运行。
- 对于 MoE 中的门控网络,本研究采用可学习的线性层后接 Softmax 函数,即
G(x)=Softmax(Wx)(1)G(x)=Softmax(Wx) \tag{1}G(x)=Softmax(Wx)(1)
其中 W 为门控参数。
- 最后,MoE 的输出通过所选专家输出的线性组合计算得出,权重为相应的门控值。该过程表示为:
MOE(x)=∑i∈TGi(x)⋅Ei(x),(2)MOE(x)=\sum_{i \in \mathcal{T}} \mathcal{G}_{i}(x) \cdot \mathcal{E}_{i}(x),\tag{2}MOE(x)=i∈T∑Gi(x)⋅Ei(x),(2)
其中 T 表示前 k 个索引的集合。在 SkySense V2 主干网络中,设置L=6L=6L=6,M=8M=8M=8,k=1k=1k=1。
整体预训练流程
图 5. SkySense V2 预训练流程概述。SkySense V2 对多模态输入进行数据增强,随后将增强后的数据同时输入学生网络和教师网络。预训练过程集成了多粒度对比学习(Multi-Granularity Contrastive Learning)、密集图像 - 文本对齐(Dense Image-Text Alignment)和基于查询的语义聚合对比学习(Query-based Semantic Aggregation Contrastive Learning),以实现对网络的有效训练。预训练完成后,教师分支的参数将用于下游应用。
SkySense V2 的预训练框架主要采用 SkySense [24] 的师生架构,其中教师网络的参数通过学生网络参数的指数移动平均(EMA)[53] 进行更新。
- 为训练 SkySense V2,本研究采用 SkySense 中提出的多粒度对比学习(MGCL)损失LMGCLL_{MGCL}LMGCL。对于每种模态,MGCL 利用对比损失 [53] 在像素级、目标级和图像级粒度上对齐教师和学生网络的表示。
- 此外,本研究集成了在 SkySense 中已验证有效的无监督地理上下文原型学习(GCPL),以增强对互补区域上下文线索的学习,辅助下游任务。
- 为进一步提升密集解译能力,本研究引入辅助监督损失LITAL_{ITA}LITA,根据 OpenStreetMap(OSM)标签 1 采用密集图像 - 文本对齐(ITA)。MGCL、GCPL 和 ITA 的详细实现见附录 A。
基于查询的语义聚合对比学习(QSACLQSACLQSACL)
基于查询的语义聚合对比学习(QSACLQSACLQSACL)利用可学习的查询聚合图像不同区域的相似语义,实现更准确的对比学习。具体而言:
- 给定来自两个全局视图的特征g1g_1g1、g2g_2g2和来自 nnn 个局部视图的特征l1,l2,...,lnl_1, l_2,...,l_nl1,l2,...,ln(其中 ggg 和 lll 分别表示来自全局和局部视图的融合特征FfusF_{fus}Ffus),本研究采用 Transformer 解码器层执行 mmm 个可学习查询q1,q2,...,qmq_1, q_2,...,q_mq1,q2,...,qm与特征集 ggg 和 lll 之间的交叉注意力计算。此过程为每个i=1,2,...,mi=1,2,...,mi=1,2,...,m生成全局和局部聚合特征集zigz_i^gzig和zilz_i^lzil。
图 6. 结合多裁剪增强(2 个全局视图和 n 个局部视图)的 QSACL 计算流程。
如图 6 所示,用上标 ′'′ 表示来自教师网络的特征,QSACL 损失LQSACLL_{QSACL}LQSACL通过对每个查询的局部和全局视图聚合特征之间的对比损失LCLL_{CL}LCL取平均计算得出:
LQSACL=12m∑i=1m(LCL(zig,zil′)+LCL(zil,zig′)),(3)\mathcal{L}_{QSACL}=\frac{1}{2m} \sum_{i=1}^{m}(\mathcal{L}_{CL}(z_{i}^{g}, z_{i}^{l'})+\mathcal{L}_{CL}(z_{i}^{l}, z_{i}^{g'})), \tag{3}LQSACL=2m1i=1∑m(LCL(zig,zil′)+LCL(zil,zig′)),(3)
LCL(x,x′)=−H(x)log(H′(x′)).(4)\mathcal{L}_{CL}(x, x')=-\mathcal{H}(x)log(\mathcal{H}'(x')). \tag{4}LCL(x,x′)=−H(x)log(H′(x′)).(4)
其中,HHH 和H′H'H′分别表示 [7] 中定义的学习头及其对应的 EMA 部分。
整体训练目标是LMGCLL_{MGCL}LMGCL、LITAL_{ITA}LITA和LQSACLL_{QSACL}LQSACL的加权和,即:L=λ1LMGCL+λ2LITA+λ3LQSACL.(5)\mathcal{L}=\lambda_{1}\mathcal{L}_{MGCL}+\lambda_{2}\mathcal{L}_{ITA}+\lambda_{3}\mathcal{L}_{QSACL}. \tag{5}L=λ1LMGCL+λ2LITA+λ3LQSACL.(5)
实验
4.2 单模态任务
场景分类
表1. 场景分类结果。“-”表示不支持该任务或论文中未提供相关数值。
表 1 报告了在四个广泛使用的数据集上的场景分类性能:包含静态 RGB 光学图像的 AID [79] 和 RESISC-45 [13]、包含静态多光谱图像的 BEN-S2 [62],以及包含时序多光谱图像的 fMoW-S2 [15]。遵循 [15, 49] 的方法,在不同训练比率(TR)下评估各数据集的性能。实验中采用简单的线性分类器作为分类头。对于多标签数据集,使用平均精度均值(mAP)作为评估指标;对于单标签数据集,报告总体准确率(OA)。
如表 1 所示,在不同数据集和训练配置下,SkySense V2 的性能始终优于现有遥感基础模型,尤其在低训练比率设置下表现突出。这表明 SkySense V2 相较于包括其前身 SkySense [24] 在内的其他遥感基础模型,具有更强的表示能力。
语义分割
表 2a 报告了在四个代表性语义分割数据集上的结果:用于高分辨率光学图像分割的 iSAID [76] 和 Potsdam [61],以及用于多光谱和多时相图像分割的 Dyna.-Pla [67] 和 Dyna.-S2 [67]。遵循先前工作,Potsdam 数据集使用平均 F1 分数(mF1)作为评估指标,其他数据集则报告平均交并比(mIoU)。所有分割实验均采用 UperNet [80] 作为解码器头。
如表 2a 所示,在所有四个数据集上,SkySense V2 的性能均优于最新的遥感基础模型。具体而言,相较于之前的最先进方法 SkySense [24],SkySense V2 的平均性能提升 1.5%。
水平与定向目标检测
采用 DIOR 数据集 [36] 评估 SkySense V2 的水平目标检测性能,采用 DIOR-R [14] 和 FAIR1M [65] 数据集评估其定向目标检测性能。这些数据集均由 RGB 遥感图像组成。与先前研究 [24] 一致,分别采用 Faster R-CNN [56] 和 Oriented R-CNN [37] 作为水平和定向目标检测的基础检测器。如表 2b 所示,SkySense V2 的性能显著优于现有遥感基础模型。
具体而言,相较于之前的最先进方法 SkySense [24],SkySense V2 的平均 mAP 提升 1.1%。
变化检测
在 LEVIR-CD [9]、OSCD [17] 和 Dyna.-S2 [67] 数据集上进行变化检测实验。由于 LEVIR-CD 和 OSCD 数据集仅包含二值变化检测结果,采用 [10] 中的基础变化检测器,并以 F1 分数作为评估指标。而 Dyna.-S2 专注于语义变化检测,采用 UperNet [80] 作为分割网络,并遵循 [24] 的方法在验证集和测试集上计算语义变化检测分数(SCS)。
如表 2c 所示,在所有 3 个数据集上,SkySense V2 的性能均优于之前的最先进方法 SkySense,平均提升 2.7%。特别是在 OSCD 数据集上,SkySense V2 的 F1 分数较 SkySense 显著提升 5.2%。
4.3 多模态任务
多模态分割
表 3(a)和(b)分别展示了在 Dyna.-MM [67] 和 PASTIS-MM [21] 上的性能结果。Dyna.-MM 包含来自 PlanetFusion 的高分辨率光学图像、来自 Sentinel-2 的多光谱图像和来自 Sentinel-1 的合成孔径雷达图像。在 Dyna.-MM 上的实验采用基础 UperNet [80] 作为解码器头,以 mIoU 作为评估指标。如表 3(a)所示,在不同模态下,SkySense V2 的性能均优于 SkySense,展现出更强的表示能力。此外,融合多种模态相较于单一模态能获得更高性能。这一结果证实,提出的 SkySense V2 能够通过统一骨干网络有效提取不同模态的表示。
PASTIS-MM 是一个作物制图数据集,包含来自 Google Earth Pro(GEP)的高分辨率光学图像、来自 Sentinel-2 的多时相多光谱图像(S2-Ts)和来自 Sentinel-1 的多时相合成孔径雷达图像(S1-Ts)。采用简单的 FCN 头解码语义分割结果,并在表 3(b)中以总体准确率作为评估指标。结果表明,SkySense V2 的性能较之前的最先进方法 SkySense 平均提升 1.0%。此外,值得注意的是,相较于 S2,S2-Ts 能显著提高分割准确率,突显了时序信息在作物制图中的重要性。
多模态场景分类
在 BEN-MM 数据集 [63] 上进行多模态场景分类实验。如表 3(c)所示,提出的 SkySense V2 性能优于 SkySense,展现出更强的表示能力。此外,通过融合 S1 和 S2 图像,SkySense V2 获得了更大的性能提升,表明相较于 SkySense,其从不同模态中提取更优表示的能力得到增强。
4.4 消融实验
组件消融研究
图7. 在AID和RESISC-45数据集上采用k近邻(k-NN)分类法开展消融实验。在此背景下,各缩写含义如下:GA指在后两个阶段用全局自注意力替换基于窗口的自注意力;MsP指添加模态特定提示令牌;MoE指通过混合专家(Mixture of Experts)方法对模型进行扩容;QSACL指添加额外的基于查询的语义聚合对比学习。
为明确各组件的贡献,在 AID 和 RESISC-45 数据集上进行 k 近邻(k-NN)评估。图 7 展示了不同组件组合在不同预训练迭代次数下的性能。
- 值得注意的是,统一骨干网络设计显著加速了表示学习。这主要是由于不同模态间的参数共享使梯度得以聚合,从而加快收敛速度。
- 此外,统一设计使骨干网络能够利用不同模态的数据进行训练,进而增强模型的泛化能力(详见附录 F.3)。
- 结果还表明,全局自注意力与基于窗口的自注意力形成互补,有助于获得更优表示。
- 此外,模态特定提示令牌和 MoE 扩展分别通过增加特征多样性和模型容量,促进了表示学习。
- QSACL 通过提高对比学习中特征的语义准确性,提升了模型性能。
模态特定提示令牌如何促进预训练?
图 8. 统一 Transformer 骨干网络最后一个块输出特征表示的 t-SNE 可视化结果。其中,HROI、SARI 和 MSI 分别代表高分辨率光学图像、合成孔径雷达图像和多光谱图像的特征。
为探究模态特定提示(MsP)令牌在统一骨干网络多模态预训练过程中的作用,采用 t-SNE [69] 可视化不同模态的特征。这些特征从统一 Transformer 骨干网络的最后一个块中提取,对比结果如图 8 所示。不使用 MsP 时,高分辨率光学图像(HROI)和合成孔径雷达图像(SARI)的特征紧密聚类,导致特征分布重叠;而融入 MsP 后,HROI 和 SARI 的特征变得可清晰分离。这些可视化结果明确表明,MsP 有效增强了特征多样性,并赋予特征模态特异性。
基于查询的语义聚合对比学习捕捉何种特征?
图 9. 基于查询的语义聚合对比学习(QSACL)中不同查询对应的特征补丁交叉注意力权重可视化结果。查询能够有效聚合具有特定语义的特征。
为更清晰地理解提出的 QSACL,图 9 可视化了特定查询与不同特征交互时的注意力权重。预训练过程中使用两个全局增强裁剪和六个局部增强裁剪。图中展示了两个不同的查询,每个查询专注于图像补丁的不同语义特征。例如,一个查询专注于具有建筑物语义的特征(图 9 第一行左侧),而另一个查询专注于具有土地语义的特征(图 9 第一行右侧)。不同查询的注意力权重将每个补丁的特征聚合为不同的特征表示。随后,对教师和学生模型中来自同一查询的聚合特征进行对比学习。与对整幅图像特征进行传统对比学习相比,这种方法显著提高了语义准确性。