多模态大语言模型arxiv论文略读(五十一)
DreamLIP: Language-Image Pre-training with Long Captions
➡️ 论文标题:DreamLIP: Language-Image Pre-training with Long Captions
➡️ 论文作者:Kecheng Zheng, Yifei Zhang, Wei Wu, Fan Lu, Shuailei Ma, Xin Jin, Wei Chen, Yujun Shen
➡️ 研究机构: Zhejiang University、Ant Group、Shanghai Jiao Tong University、University of Science and Technology of China、Eastern Institute of Technology、Northeastern University, China
➡️ 问题背景:当前的语言-图像预训练模型(Language-Image Pre-training Models, LIPMs)主要依赖于文本对配对图像的精确和全面描述。然而,实际中图像内容的丰富性往往需要长篇幅的描述(例如10句话),而现有的数据集通常缺乏这种详细的描述。因此,关于语言-图像预训练模型是否以及如何从长描述中受益,目前尚无明确的证据。
➡️ 研究动机:为了探究语言-图像预训练模型是否可以从长描述中受益,研究团队首先使用预训练的多模态大型语言模型(MLLM)为3000万张图像生成详细的描述,然后在对比学习框架下研究这些长描述的使用。研究旨在通过动态采样子描述来构建多个正样本对,并引入分组损失,以实现子描述与局部图像块的细粒度对齐,从而提高模型的细粒度表示能力。
➡️ 方法简介:研究团队提出了一种名为DreamLIP的方法,该方法通过动态采样子描述来构建多个正样本对,并引入分组损失,以实现子描述与局部图像块的细粒度对齐。具体来说,研究团队首先使用预训练的MLLM为3000万张图像生成详细的描述,然后在对比学习框架下研究这些长描述的使用。通过这种方法,研究团队能够构建一个包含长描述的图像-文本数据集,并通过多正样本对比损失框架将子描述与对应的图像紧密关联,形成丰富的模态对齐。
➡️ 实验设计:研究团队在多个下游任务上进行了实验,包括图像-文本检索、语义分割和多模态语言模型中的图像理解。实验设计了不同的数据集(如CC3M、CC12M、YFCC15M)和不同的任务(如图像-文本检索、语义分割、视觉-语言推理),以全面评估模型的性能。实验结果表明,DreamLIP在多个任务上均表现出色,尤其是在图像-文本检索和语义分割任务上,其性能与CLIP在4亿对图像-文本数据上训练的模型相当或更好。
Assessment of Multimodal Large Language Models in Alignment with Human Values
➡️ 论文标题:Assessment of Multimodal Large Language Models in Alignment with Human Values
➡️ 论文作者:Zhelun Shi, Zhipin Wang, Hongxing Fan, Zaibin Zhang, Lijun Li, Yongting Zhang, Zhenfei Yin, Lu Sheng, Yu Qiao, Jing Shao
➡️ 研究机构: Shanghai Artificial Intelligence Laboratory, School of Software (Beihang University), Dalian University of Technology, University of Science and Technology of China, The University of Sydney
➡️ 问题背景:大型语言模型(LLMs)旨在作为多功能助手,与人类价值观对齐,遵循有用、诚实、无害(hhh)的原则。然而,对于多模态大型语言模型(MLLMs),尽管在感知和推理任务中表现出色,但其与人类价值观的对齐性尚未得到充分探索。这主要是因为定义视觉世界中的hhh维度复杂,且收集反映真实情况的相关数据困难。
➡️ 研究动机:现有的研究和评估基准主要集中在MLLMs的感知和推理能力上,而对其是否符合人类价值观的评估相对较少。为了填补这一空白,研究团队开发了Ch3Ef,一个全面评估MLLMs与人类价值观对齐性的数据集和策略。Ch3Ef数据集包含1002个人工标注的数据样本,涵盖了12个领域和46个任务,基于hhh原则。此外,还提出了一种统一的评估策略,支持在不同场景和视角下的评估。
➡️ 方法简介:研究团队构建了Ch3Ef数据集,该数据集基于hhh原则,分为三个层次的维度:语义对齐(A1)、逻辑对齐(A2)和与人类价值观对齐(A3)。每个层次进一步细分为具体的领域和任务。例如,A3层次包括避免歧视、毒性、非法活动、伤害和保护隐私等任务。数据集的创建过程中,研究团队利用了人类与MLLMs的协同作用,确保数据样本真实反映实际应用场景。
➡️ 实验设计:研究团队在15个MLLMs上进行了实验,涵盖了11个不同场景,从A1到A3的整个谱系。实验设计了多种评估指标,包括准确率(ACC)和预期校准误差(ECE),以全面评估模型在不同层次和维度上的表现。通过这些实验,研究团队总结了10多个关键发现,这些发现加深了对MLLMs能力、局限性和不同评估层次之间动态关系的理解,为未来的研究和应用提供了指导。
Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective
➡️ 论文标题:Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective
➡️ 论文作者:Meiqi Chen, Yixin Cao, Yan Zhang, Chaochao Lu
➡️ 研究机构: 北京大学、复旦大学、上海人工智能实验室
➡️ 问题背景:大型语言模型(LLMs)的发展促进了多模态大型语言模型(MLLMs)的出现。尽管MLLMs在多种任务中表现出色,但它们往往过度依赖单模态偏差(如语言偏差和视觉偏差),导致在复杂的多模态任务中产生错误答案或幻觉。特别是在基于知识的视觉问答(VQA)问题中,MLLMs可能会因为语言偏差或视觉偏差而产生错误答案。
➡️ 研究动机:为了深入研究MLLMs在多模态任务中的单模态偏差问题,研究团队提出了一种因果框架来解释和量化这些偏差。通过构建新的数据集和提出增强因果性的方法,研究旨在提高MLLMs的多模态理解和推理能力,减少偏差的影响。
➡️ 方法简介:研究团队首先定义了一个因果图,用于描述MLLMs在VQA问题中的预测过程,包括图像和问题的关键因果因素。通过控制干预(如改变问题或图像中的某些部分),研究团队评估了单模态偏差对模型预测的因果影响。基于此分析,研究团队构建了一个新的数据集MORE,包含12,000个需要多步推理和克服单模态偏差的VQA实例。此外,研究团队还提出了一个增强因果性的框架CAVE,通过问题分解、因果增强的自我反思、外部知识检索和答案验证等步骤,帮助模型更全面地整合多模态信息,减少偏差。
➡️ 实验设计:研究团队在MORE数据集上进行了广泛的实验,评估了多个领先的MLLMs在处理单模态偏差和多步推理任务中的表现。实验结果表明,大多数MLLMs在MORE数据集上表现不佳,显示出强烈的单模态偏差和对干扰的低抗性。然而,当集成CAVE框架后,模型在推理和偏差缓解方面表现出显著的改进,尽管仍存在改进空间。这些发现为未来开发更强大的MLLMs提供了重要见解。
Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models
➡️ 论文标题:Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models
➡️ 论文作者:Jiaxing Chen, Yuxuan Liu, Dehu Li, Xiang An, Weimo Deng, Ziyong Feng, Yongle Zhao, Yin Xie
➡️ 研究机构: Peking University, DeepGlint
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉推理领域取得了显著进展,但由于图像分词过程的限制,大多数MLLMs难以捕捉高分辨率图像中的细粒度文本和对象信息,导致推理过程中出现幻觉或错误。此外,大规模标注数据的收集和多模态指令调优数据的扩展也面临挑战。
➡️ 研究动机:为了克服这些限制,研究团队提出了一种新的框架P2G,通过利用外部代理(如OCR代理和视觉定位代理)来增强MLLMs在高分辨率和文本丰富的视觉场景中的推理能力。此外,研究团队还开发了一个基准P2GB,用于评估MLLMs在理解高分辨率图像中的对象关系和文本内容方面的表现。
➡️ 方法简介:P2G框架通过插件式接地(Plug-and-Play Grounding)方法,利用外部代理提供关键的文本和视觉线索,从而增强MLLMs的推理能力。具体来说,P2G首先评估当前任务的复杂性,对于简单的任务直接给出答案,对于复杂的任务则调用OCR代理和视觉定位代理获取更多细节。这些额外的线索被整合到多模态提示中,以生成更准确的推理结果。
➡️ 实验设计:研究团队在多个视觉推理任务上进行了实验,包括P2GB基准测试。实验设计了不同类型的图像和问题,以评估P2G在处理高分辨率和文本丰富的图像时的性能。实验结果表明,P2G在7B模型规模下实现了与GPT-4V相当的性能,显著优于其他类似规模的模型。
Cross-Lingual Transfer Robustness to Lower-Resource Languages on Adversarial Datasets
➡️ 论文标题:Cross-Lingual Transfer Robustness to Lower-Resource Languages on Adversarial Datasets
➡️ 论文作者:Shadi Manafi, Nikhil Krishnaswamy
➡️ 研究机构: Colorado State University
➡️ 问题背景:多语言语言模型(MLLMs)如MBERT和XLM-R展示了强大的跨语言迁移能力,即能够利用源语言中的信息并应用于目标语言。这种能力在命名实体识别(NER)等自然语言处理(NLP)任务中具有实际应用价值。然而,这些模型在低资源语言(LRLs)中的表现和对输入扰动的鲁棒性仍存在挑战。
➡️ 研究动机:研究旨在评估高资源语言(HRLs)的模型性能如何迁移到与之有地理、遗传或借用关系的低资源语言(LRLs),特别是在输入数据受到扰动的情况下。通过评估模型在不同扰动下的表现,研究团队希望揭示词汇重叠、跨语言迁移能力和对抗性扰动之间的关系,为未来的NLP应用提供有价值的见解。
➡️ 方法简介:研究团队构建了一个包含21种语言的综合数据集,用于评估模型在零样本学习中的鲁棒性。数据集包括NER任务和维基百科章节标题预测任务。研究团队设计了四种扰动方法,包括替换命名实体、修改周围词汇等,以评估模型在不同条件下的表现。
➡️ 实验设计:实验在13对语言上进行,每对语言包括一个高资源语言和一个低资源语言。实验评估了MBERT和XLM-R在原生LRL和跨语言迁移设置下的表现,特别是在不同扰动下的表现。实验结果表明,跨语言迁移的性能很大程度上取决于源语言和目标语言之间的实体重叠程度。此外,跨语言迁移模型在某些扰动下表现出更强的鲁棒性。