cd论文精读
摘要:传统rscd方法大多基于图像模态(像素级对比),作者提出MMChange,引入多模态(图像+文本)提升效果。核心创新:IFR模块(对图像特征做精炼,强化变化区域,弱化背景干扰)、VLM引入文本(通过视觉语言模型,将图像转换为语义描述,让模型具备更高层次的语义理解)、TDE模块(比较前后时相的文本描述,挖掘语义层面)、ITFF模块(跨模态融合)。
引言:介绍什么是rscd、前人方法(传统的和深度学习的,深度学习的主要集中在单模态图像的变化检测)。近来,多模态学习是热点。changeclip的不足有xxx。本研究的动机有xxx。
相关工作:a 单模态变化检测cnn transformer,b 多模态方法
方法:
图像编码器 resnet50,特征提取,随后用IFR图像特征优化模块细化特征。在此之后,VLM(TinyLLaVA)生成双时态图像的文本描述,然后把文本描述输入到clip文本编码器中获取特征。TDE模块用于增强两个文本表示之间的差异,突出双时态特征之间的语义变化。然后通过ITFF模块融合文本和图像特征,再将多模态特征集成发送到解码器中,以创建mask。