CDBench论文精读
摘要:一般的变化检测旨在识别和解释同一场景或物体在不同状态下的有意义差异,这在遥感和工业检测领域中发挥关键作用。尽管mllms显示出潜力,但它们在结构化、通用的变化检测方面的能力仍未得到充分探索。为此,我们提出了CDBench,这是首个面向多领域、全面评估mllms在一般变化检测能力的基准。该基准统一了多样化的数据集,并定义了七个结构化任务:其中包括两个图像分析任务(图像内容分类和图像内容描述)和五个变化分析任务(变化判别、变化定位、语义变化分类/检测、变化描述和变化原因推断)这些任务都以mcq的形式进行设计,通过基于llm的生成、跨模型优化以及双专家人工验证的方式,确保评估的一致性和自动化。对一系列领先的mllms的基准测试显示,它们在这些细粒度的变化检测任务中具备一定的基础能力,但整体性能有限,相比之下我们的change-agent框架通过rag和专家视觉引导,显著提高了平均准确率。cdbench强调了高级语义推理在变化检测中的重要性,并未未来研究可泛化、可解释的多模态视觉变化理解模型提供了一个强有力的基准和高性能参考模型。
引言和相关工作:变化检测,即识别同一物体在不同状态下的有意义差异,是遥感、工业检测以及通用计算机视觉等领域中的一项基础性任务。传统变化检测方法通常依赖于手工设计的特征或直接的图像差分。随着深度学习发展,早期的基于cnn的方法引入了孪生网络架构进行特征差分,诸如fc-siam-conc和fc-siam-diff等,在遥感领域表现出色,但在大范围的上下文变化下有时表现不佳。为了更好地捕捉全局依赖关系,研究者引入了基于transformer的架构,例如bit、idet和changeformer,通过集成注意力机制来建模长距离关系并提取多尺度特征。尽管这些现代深度学习方法在像素级和语义级变化检测方面取得了显著进展,但它们大多局限于特定领域,通常需要密集的标注,难以在多模态和多尺度数据上实现稳健的泛化,并且往往缺乏深入的语义推理能力来解释检测到的变化的重要性,尤其是在处理新的、未见过的或依赖上下文的微妙变化时。因此,要理解不仅仅是“变化了什么”,更重要的是“为什么变化”以及“变化的含义”,依然是一个挑战。mllms为克服这些局限性提供了一种有前景的范式。这些模型通常利用大规模的预训练主干网络,如vit和dinov2,以及强大的llms,例如llama以及后续版本并且它们通常在大型的图文语料库上进行训练。通过自然地处理和推理联合的视觉和文本信息,并利用预训练带来的广泛世界知识,mllms能够超越单纯的像素级比较。这使得它们能够实现更加灵活、通用的变化检测方法,尤其擅长处理未见过的对象以及需要细致语义推理的复杂变化。
近期的mllms在各种视觉语言任务中展现了令人瞩目的零样本能力。然而它们在不同领域和分析粒度下的结构化、通用变化检测能力尚未得到系统探索和基准评估。多模态方法正在被应用于变化检测,例如changeclip将clip嵌入用于遥感中的语义变化检测。基于blip的方法以及指令微调版本instructBlip也通过比较图像标题或文本嵌入来推断变化,但缺乏系统性的通用变化检测评估。遥感领域一些专门的mllms正在涌现:earth gpt、rsgpt、geochat、remoteclip。尽管上述方法取得了进展,但更广泛的视觉-语言基准,如 VLUE、SEED-Bench 和 MMBench,虽然评估了基础的视觉-语言能力,但并没有专门关注图像对之间变化检测与解释的独特挑战。为了弥补这一关键空白,我们提出了 CDBench,这是首个专门为评估 MLLMs 在多模态、多领域和多分析深度下的通用变化检测能力而设计的全面基准。CDBench 集成了来自遥感(LEVIRCD 、SYSU-CD 、CDD )、工业检测(MVTecAD、MVTec-LOCO 、Visa)以及商品对比(GoodsAD)等多个领域的多样化数据集,共计超过 15,000 对图像。
主要贡献总结:
(1)我们提出了 CDBench,这是首个用于系统评估多模态大型语言模型在通用变化检测任务中表现的统一且全面的基准,涵盖了七个基于多项选择题(MCQ)的结构化任务,跨越多个领域;
(2)我们整合了来自多个现有来源的多样化数据集,专门为通用变化检测任务而构建;
(3)我们在零样本条件下对多种 SOTA 的 MLLMs 进行了广泛的基准测试,揭示了它们在变化理解方面的能力和局限性;
(4)我们提出了 ChangeAgent,这是一个将专家视觉模块和检索增强生成(RAG)与 MLLMs 相结合的新颖混合框架,在性能和可解释性方面都显著提升,树立了一个有力的方法学基线。
change-agent方法
我们提出change-agent——一种新颖的混合架构,旨在执行全面的语义变化检测与分析。该框架将变化检测不仅定义为像素级比对,更视为对时许观测对的复杂推理任务。它整合了这几个核心能力:深度多模态特征提取、专业化视觉特征定位、基于RAG的知识获取、llm的上下文推理能力,从而实现场景化变化解读与多样化分析任务。
多模态输入与特征编码:两幅图像分别通过共享的clip视觉编码器处理,输入文本提示经由clip文本编码器生成文本嵌入,用于引导RAG模块或约束最终llm分析。
专家引导的视觉变化定位:为建立精确的视觉变化证据,change-agent引入专家决策模块。变化解码器模块根据Fa Fb生成初步的mask,适配器模块进行特征对齐或领域自适应调整。通过元素级运算生成得分图谱,最终聚合为二值化变化mask。
rag:通过知识检索模块对接领域知识库,获取遥感场景和工业场景的先验信息。检索条件包括视觉特征f1 f2,文本嵌入ftext及高层分析问题,返回相关知识片段k以支撑llm的上下文推理。
llm集成推理与任务执行:最终阶段由llm执行综合推理:输入上下文包含 专家模块生成的mask、rag增强的文本语境、clip编码的原始视觉特征。