多模态大语言模型arxiv论文略读(九十六)
E5-V: Universal Embeddings with Multimodal Large Language Models
➡️ 论文标题:E5-V: Universal Embeddings with Multimodal Large Language Models
➡️ 论文作者:Ting Jiang, Minghui Song, Zihan Zhang, Haizhen Huang, Weiwei Deng, Feng Sun, Qi Zhang, Deqing Wang, Fuzhen Zhuang
➡️ 研究机构: Beihang University、Microsoft Corporation
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在通用视觉和语言理解方面展现了显著的进步。然而,使用MLLMs表示多模态信息的研究仍然较少。当前的方法,如CLIP,虽然在文本-图像检索任务中表现出色,但在处理交错的视觉和语言输入时存在局限性,如对复杂文本的理解能力较低,以及在组合图像检索任务中的表现不佳。
➡️ 研究动机:为了克服现有方法的局限性,研究团队提出了一种新的框架E5-V,旨在通过利用MLLMs实现通用多模态嵌入。研究团队希望通过设计特定的提示,使MLLMs能够在不进行微调的情况下正确表示多模态输入,从而消除模态间的差距,并提高多模态嵌入的性能。
➡️ 方法简介:E5-V框架通过单模态训练(仅使用文本对)来适应MLLMs,以实现通用多模态嵌入。该方法通过设计特定的提示,指导MLLMs将多模态输入表示为单词,从而将不同模态的嵌入统一到同一空间中。这种方法不仅显著提高了多模态嵌入的性能,还大幅降低了训练成本,减少了对昂贵的多模态训练数据的需求。
➡️ 实验设计:研究团队在四个任务上进行了实验,包括文本-图像检索、组合图像检索、句子嵌入和图像-图像检索。实验结果表明,E5-V在所有任务中均表现出色,尤其是在组合图像检索任务中,E5-V显著优于现有的零样本组合图像检索基线模型,且无需使用复杂的文本反转技术或额外的标注数据。此外,E5-V在图像-图像检索任务中也表现出色,能够准确地通过视觉输入理解文本信息。
MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models
➡️ 论文标题:MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models
➡️ 论文作者:Leyang Shen, Gongwei Chen, Rui Shao, Weili Guan, Liqiang Nie
➡️ 研究机构: Harbin Institute of Technology, Shenzhen
➡️ 问题背景:多模态大型语言模型(MLLMs)在各种视觉-语言任务中展现了卓越的能力。然而,通用型MLLMs在大多数视觉-语言任务上的表现通常不如专门型MLLMs,这主要归因于任务干扰问题。任务干扰是多任务学习中的一个基本且关键的问题,尤其是在多模态学习中,视觉和语言模态的任务差异导致了模型性能的下降。
➡️ 研究动机:为了缓解任务干扰问题,研究团队提出了一种混合多模态专家(MoME)的方法,旨在通过视觉专家(MoVE)和语言专家(MoLE)的组合,提高通用型MLLMs的性能。研究旨在通过专门化视觉和语言模态的专家,适应任务差异,从而减轻任务干扰。
➡️ 方法简介:研究团队提出了MoME,包括MoVE和MoLE两个关键组件。MoVE通过自适应可变形变换(ADT)模块和基于指令的软路由机制,动态地聚合来自不同视觉编码器的特征。MoLE则通过在LLM的每个前馈网络层中插入多个参数高效的适配器,实现任务特定的理解能力,从而增强多任务处理能力。
➡️ 实验设计:研究团队收集了24个数据集,并将其分为四组,用于指令调优和评估。实验设计了不同的视觉编码器和MoME组件(ADT和路由机制)的组合,以验证MoME的有效性。实验结果表明,MoME在所有任务组中显著提高了性能,特别是在文档理解任务中,性能提升超过20点。此外,通过可视化路由结果,研究团队展示了MoVE能够根据任务需求自适应地调制不同视觉编码器的特征。
EarthMarker: A Visual Prompting Multi-modal Large Language Model for Remote Sensing
➡️ 论文标题:EarthMarker: A Visual Prompting Multi-modal Large Language Model for Remote Sensing
➡️ 论文作者:Wei Zhang, Miaoxin Cai, Tong Zhang, Jun Li, Yin Zhuang, Xuerui Mao
➡️ 研究机构: 北京理工大学、中国地质大学(武汉)
➡️ 问题背景:当前的多模态大语言模型(MLLMs)在自然场景中已经取得了显著的进展,但在遥感(RS)领域,这些模型主要集中在图像级别的视觉-语言对齐,缺乏对区域、点和像素级别的细粒度解释能力。此外,现有的视觉提示技术主要应用于自然场景,遥感领域的视觉提示数据集和模型相对匮乏。
➡️ 研究动机:为了填补遥感领域视觉提示多模态大语言模型(MLLMs)的空白,研究团队提出了EarthMarker,这是首个专门针对遥感领域的视觉提示MLLM。EarthMarker能够通过视觉和文本联合提示理解遥感图像,并灵活地在图像、区域和点级别之间切换解释层次。此外,研究还旨在开发一个大规模的遥感视觉提示数据集(RSVP),以支持细粒度的遥感图像解释。
➡️ 方法简介:研究团队提出了一种系统的方法,通过构建RSVP数据集,来评估视觉提示对MLLMs的影响。RSVP数据集包含了大量的图像-点-文本和图像-区域-文本对,这些数据集经过转换和重新标注,以适应多模态多粒度的视觉提示指令。此外,研究团队还开发了一种共享视觉编码机制,以增强视觉提示、整体图像和文本指令之间的互动。为了提高模型的跨域学习能力,研究团队设计了一种跨域学习策略,利用多域数据进行混合训练。
➡️ 实验设计:在多个类型的遥感数据集上进行了实验,评估了EarthMarker在多粒度遥感视觉任务中的性能,包括场景分类、目标分类、区域描述和关系分析等。实验结果表明,EarthMarker在这些任务中表现出色,特别是在零样本场景分类任务中,显著优于现有的MLLMs。此外,EarthMarker在目标分类任务中也取得了高精度,使用边界框作为视觉提示的语义相似度(SS)得分为98.37%,使用点提示的SS得分为95.96%。
X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs
➡️ 论文标题:X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs
➡️ 论文作者:Sirnam Swetha, Jinyu Yang, Tal Neiman, Mamshad Nayeem Rizve, Son Tran, Benjamin Yao, Trishul Chilimbi, Mubarak Shah
➡️ 研究机构: University of Central Florida, Amazon
➡️ 问题背景:多模态大型语言模型(MLLMs)在视觉-语言理解领域取得了显著进展,通过将视觉感知能力整合到大型语言模型(LLMs)中。然而,现有的MLLMs主要依赖于从视觉-语言对比学习(CL)中提取的视觉编码器,这导致了在捕捉细粒度视觉特征方面的局限性,如对象方向、结构复杂性、空间关系和多个对象实例等。
➡️ 研究动机:为了克服现有MLLMs在细粒度视觉理解上的不足,研究团队提出了一种新的方法,通过结合对比学习(CL)和掩码图像建模(MIM)来增强视觉表示,从而提高模型在视觉-语言任务中的表现。
➡️ 方法简介:研究团队引入了X-Former,这是一种轻量级的变压器模块,旨在通过创新的交互机制,利用CL和MIM的互补优势。X-Former首先从两个冻结的视觉编码器(CLIP-ViT和MAE-ViT)中引导视觉-语言表示学习和多模态到多模态的生成学习,然后通过双交叉注意力模块动态融合提取的特征,以实现图像重建和文本生成的目标。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括VQAv2、GQA、OKVQA等,评估了X-Former在需要详细视觉理解的任务上的表现。实验设计了不同的任务类型(如开放性问题、是/否问题、数字问题等),以及不同的评估指标(如准确率、BLEU、CIDEr、SPICE等),以全面评估模型的性能。实验结果表明,X-Former在多个任务上显著优于现有的MLLMs,特别是在需要细粒度视觉理解的任务上表现尤为突出。
Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding
➡️ 论文标题:Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding
➡️ 论文作者:Renshan Zhang, Yibo Lyu, Rui Shao, Gongwei Chen, Weili Guan, Liqiang Nie
➡️ 研究机构: Harbin Institute of Technology, Shenzhen
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在处理高分辨率文档图像时面临效率问题。这些模型通常将高分辨率图像裁剪成多个低分辨率子图像,然后将所有子图像的视觉令牌输入到大型语言模型(LLM)中。这种方法导致了视觉令牌数量的显著增加,影响了模型的可扩展性和效率。
➡️ 研究动机:为了提高多模态大语言模型在处理高分辨率文档图像时的效率,研究团队提出了一种基于令牌级相关性的压缩方法(Token-level Correlation-guided Compression)。该方法通过评估令牌之间的相关性,自适应地压缩子图像中的视觉令牌,从而减少令牌数量,提高处理速度。
➡️ 方法简介:研究团队提出了一个参数无依赖且即插即用的Token-level Correlation-guided Compressor模块。该模块通过两个主要步骤实现压缩:1) 使用patch-patch相关性确定每个子图像的压缩比例;2) 利用CLS-patch相关性指导令牌采样。具体来说,通过计算令牌之间的相似度,识别出重复的令牌,并根据信息密度确定压缩比例。同时,通过分析CLS令牌与patch令牌之间的相关性,形成概率分布,指导采样过程。
➡️ 实验设计:研究团队在多个数据集上进行了实验,包括DocVQA、InfoVQA、DeepForm、KLC、WTQ、TabFact、ChartQA、TextVQA、TextCaps和VisualMRC。实验结果表明,所提出的方法在保持性能的同时,实现了高达66%的平均压缩率,显著提高了模型的效率。此外,与现有的压缩方法(如PruMerge和PruMerge+)相比,该方法在性能上表现出色,且不会导致显著的性能下降。