IEEE GRSM 2025:Vision Foundation Models in Remote Sensing
人工智能(AI)技术深刻改变了遥感(RS)领域的发展格局,在数据采集、处理与分析层面实现了革命性突破。传统遥感研究长期依赖人工解译和专用模型,而基础模型(FMs)——这种能够以极高精度和效率执行多任务的大规模预训练AI模型的出现,显著推动了该领域的发展。本文系统综述了遥感领域的基础模型研究:首先依据模型架构、预训练数据集和方法论对现有模型进行分类;通过详尽的性能对比,揭示了当前技术趋势与重大进展;进而探讨了高质量数据需求、计算资源约束、模型泛化能力提升等关键技术挑战与应用瓶颈。研究发现,自监督学习(SSL)技术(如对比学习CL和掩码自编码器MAE)能显著提升基础模型的性能与鲁棒性。本综述旨在为学界与业界提供全景式技术参考,指引基础模型在遥感领域的发展方向与应用路径。
时间范围:2021.06-2024.06
Pretraining Methods 预训练方法
讨论FMs for RS的核心预训练方法
Self-supervised Learning 自监督预训练
自监督学习(SSL)使模型能够充分利用海量无标注数据,学习具有高度泛化能力的特征表示,这些特征可有效迁移至场景分类、语义分割、目标检测与变化检测等下游任务。通过挖掘数据底层结构与隐藏模式,SSL不仅增强了模型鲁棒性,还提升了跨遥感影像不同域与分辨率场景的适应能力[103]。图3展示了SSL的通用流程框架。当前遥感视觉基础模型中常用的两种SSL方法为预测编码(predictive coding)与对比学习(CL),它们通过独特的机制从未标注数据中提取有效信息。
预测编码 predictive coding
预测编码框架的典型实现方案包括:基于自动编码器的架构、掩码图像建模(MIM)技术(如MAE[34]所采用的方法)以及自回归模型。这些方法特别适用于学习高分辨率遥感影像中的精细细节特征,对于需要精细化处理的专业任务具有显著优势。
对比学习 contrastive learning
对比学习(CL)作为另一种重要的自监督学习技术,其核心在于区分数据中的相似与不相似样本。该方法通过拉近相似(正)样本的特征表示,同时推远不相似(负)样本的特征表示,驱使模型学习对遥感任务至关重要的判别性且具有不变性的特征。
SimCLR [13]、MoCo [35]、DINO [9] 和 BYOL [29] 等CL框架在遥感领域展现出显著潜力。这些方法采用随机裁剪、旋转和光谱波段丢弃等数据增强手段生成正样本对,使模型能够学习对这些变换具有鲁棒性的特征表示。例如在多光谱或高光谱影像中,CL可帮助模型捕捉不同条件下的光谱特征,从而提升作物分类或土地覆盖制图等任务的性能[103]。特别是在标注数据严重不平衡的遥感场景中,CL能使模型无需显式标注即可学习 underrepresented 类别或区域的特征。
通过融合预测编码与CL等方法,自监督学习显著推动了遥感视觉基础模型的发展。这些技术使模型能够利用海量无标注数据,同时保持跨不同空间分辨率、光谱波段和应用场景的适应能力。需要指出的是,除上述方法外,教师-学生自蒸馏框架等其他自监督学习技术也展现出应用潜力。例如CMID [70] 通过将CL与掩码图像建模(MIM)结合于自蒸馏框架中,实现了全局与局部特征的双重捕捉,在多类遥感任务中表现优异。这种技术多样性既体现了自监督学习的灵活性与发展活力,也凸显了其在释放遥感影像全部潜力方面的关键作用。
Supervised pretraining 有监督预训练
例如图像分类,目标检测
Image Analysis Methods 图像分析方法
Image Perediction at Different Levels
FMs in RS可以支持三种主要层级的图像分析任务:image level;region level;pixel level
Image Level
图像分类,
Region Level
目标检测
Pixel Level
语义分割,变化检测,等
Backbone 骨干网络
CNN,典型的就是ResNet
Transformer and Vision Transformer
Data and Tasks 数据与任务
Data 数据:预训练数据集
Tasks 任务
遥感的任务包含environmental monitoring, archaeology, agriculture, urban planning and development, and disaster management
环境监测
根据Himeur等人[39]的研究,环境监测通过利用遥感模型来观测和追踪环境变化,包括森林砍伐、土地荒漠化以及污染状况。这些模型在分析人类活动与自然现象对环境的影响方面发挥着至关重要的作用。
农业领域
遥感模型被应用于作物健康监测、产量预估及农业实践管理。根据Kamilaris与Prenafeta-Boldú的研究[52],这些模型有助于优化资源利用并提升农业生产效率。
考古研究
在考古领域,遥感模型用于识别和分析考古特征与遗址。Argyrou与Agapiou[5]指出,通过CNN和ViT等技术处理高分辨率影像,这些模型能从卫星图像中检测废墟、文物和古代结构等特征。Mantovan与Nanni[68]进一步强调AI模型(特别是CNN)在定位复杂陆地考古遗址和处理多光谱数据方面的有效性。
城市规划与发展
遥感模型通过监测和分析城市扩张、基础设施建设和土地利用变化,支持城市规划与发展。Jha等学者[48]研究表明,这些模型为智慧城市规划和可持续发展提供关键数据,在城市增长管理、新建项目规划及城镇化影响评估中发挥重要作用。
灾害管理
遥感模型通过提供灾区的实时信息,在灾害管理中扮演关键角色。Abid等人[1]研究显示,这些模型可用于检测和评估地震、飓风、洪水等自然灾害造成的损害,为快速响应和灾后恢复提供支撑。
Discussion 讨论
Synthetic of Findings 研究结果的综合
在我们对遥感领域基础模型(FMs)的综述中,我们识别出标志性的技术进展与发展趋势,这些发现凸显了该类模型持续演进的能力与应用前景。通过分析各类模型在场景分类、语义分割、目标检测与变化检测等下游任务中的性能指标,我们获得以下核心发现:
model performance 模型性能
Image Level :The performance of FMs on the BigEarthNet dataset for classification tasks
Pixel Level:semantic segmentation on ISPRS Potsdam dataset in Table 6; and change detection on the OSCD and LEVIR-CD datasets in Table 7