多模态大语言模型arxiv论文略读(五十九)
How Multi-Modal LLMs Reshape Visual Deep Learning Testing? A Comprehensive Study Through the Lens of Image Mutation
➡️ 论文标题:How Multi-Modal LLMs Reshape Visual Deep Learning Testing? A Comprehensive Study Through the Lens of Image Mutation
➡️ 论文作者:Liwen Wang, Yuanyuan Yuan, Ao Sun, Zongjie Li, Pingchuan Ma, Daoyuan Wu, Shuai Wang
➡️ 研究机构: The Hong Kong University of Science and Technology (HKUST), 北京工业大学 (BJUT), Drexel University, University of Oxford
➡️ 问题背景:视觉深度学习(VDL)系统在理解复杂图像语义方面表现出色,推动了图像识别、目标检测和自动驾驶等实际应用的发展。然而,VDL系统由于其模糊的决策规则,可能在关键应用中出现严重故障。软件测试通过变异输入图像并定义相应的测试预言和数值验证指标,有效检测VDL故障。近年来,多模态大语言模型(MLLMs)的发展为图像语义的自由变异提供了新的可能性,用户可以通过自然语言描述预期的变异,让MLLMs生成变异图像。
➡️ 研究动机:尽管MLLMs在图像变异方面展现出巨大潜力,但其生成的变异图像的质量和适用性尚未得到充分探索。本研究旨在评估MLLMs在VDL测试中的适用性,包括变异图像的整体语义有效性、变异图像与文本指令的一致性,以及不同变异在保持应保持不变的语义方面的忠实度。研究还探讨了MLLMs是否能够统一不同的传统输入变异,并评估其在VDL测试中带来的好处。
➡️ 方法简介:研究团队设计了一项大规模的人类评估,通过Amazon Mechanical Turk平台,邀请20位具有VDL系统和软件测试经验的博士生参与。评估内容包括MLLMs生成的测试输入的整体语义有效性、与文本指令的一致性,以及在不同变异下保持不变语义的忠实度。研究还评估了现有的验证指标是否适用于MLLMs生成的变异。
➡️ 实验设计:研究在四个数据集上进行了实验,包括通用图像分类、细粒度狗品种识别、人脸识别和自动驾驶。实验设计了10种代表性变异,涵盖了从像素级到感知级的不同变异类型,以全面评估MLLMs在不同任务中的表现。研究结果表明,MLLMs在“语义替换”变异(如“给狗穿上衣服”)方面表现出色,但在传统变异(如旋转)方面表现不佳。此外,研究还发现现有的验证指标在面对MLLMs生成的变异时适用性较低,需要进一步改进。
Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training
➡️ 论文标题:Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training
➡️ 论文作者:Mengzhao Jia, Zhihan Zhang, Wenhao Yu, Fangkai Jiao, Meng Jiang
➡️ 研究机构: University of Notre Dame、Tencent AI Seattle Lab、Nanyang Technological University
➡️ 问题背景:开源的多模态大语言模型(MLLMs)在涉及文本和视觉输入的各种任务中表现出色,但在复杂的多模态数学推理任务中仍存在不足,尤其是在视觉理解方面。这限制了它们在教育内容生成和统计数据分析等领域的应用潜力。
➡️ 研究动机:现有的方法主要集中在通过中间步骤(即推理过程)的监督来提升模型的数学推理能力,但这些方法在视觉理解方面存在不足,导致模型在处理数学图形时出现错误。为了改善这一问题,研究团队提出了一种新的两步训练管道VCAR,强调视觉理解训练在数学推理学习中的重要性。
➡️ 方法简介:VCAR首先通过图像描述生成任务来增强MLLMs的视觉理解能力,然后通过描述辅助的推理生成任务来提升数学推理能力。研究团队利用Gemini-Pro收集了描述和推理的监督信号,并采用LoRA模块分别优化视觉理解和数学推理能力。
➡️ 实验设计:在两个流行的基准数据集MathVista和MathVerse上进行了实验,验证了VCAR的有效性。实验结果表明,VCAR在需要高视觉理解能力的问题上显著优于基线方法,特别是在“视觉主导”和“视觉唯一”类别中,分别实现了34.3%和13.3%的相对提升。进一步的消融研究表明,视觉理解和数学推理的联合训练对于性能提升至关重要。
3DBench: A Scalable 3D Benchmark and Instruction-Tuning Dataset
➡️ 论文标题:3DBench: A Scalable 3D Benchmark and Instruction-Tuning Dataset
➡️ 论文作者:Junjie Zhang, Tianci Hu, Xiaoshui Huang, Yongshun Gong, Dan Zeng
➡️ 研究机构: Shanghai University、Shanghai AI Laboratory、Shandong University
➡️ 问题背景:当前的多模态大语言模型(Multi-modal Large Language Models, MLLMs)在多种任务中展现了显著的进步,尤其是在结合点云和语言的模型中。然而,现有的评估方法主要集中在分类和描述任务上,缺乏对模型空间理解和表达能力的全面评估。此外,高质量的指令调优数据集在3D领域仍然稀缺,这限制了3D-LLMs的进一步发展。
➡️ 研究动机:为了克服现有评估方法的局限性,并提供一个全面评估3D-LLMs性能的平台,研究团队开发了一个可扩展的3D基准测试(3DBench)和一个大规模的指令调优数据集。该基准测试涵盖了从对象级到场景级的多种任务,旨在评估模型的感知、推理和表达能力。
➡️ 方法简介:研究团队构建了一个包含10种多模态任务的3D基准测试,这些任务包括分类、视觉定位(VG)、检测、计数、房间检测、位置关系、对象关系、问答(QA)、描述生成和导航。此外,团队还设计了一个自动构建大规模3D指令调优数据集的方法,该数据集包含34,000个点云对象和30,000个室内场景,以及超过230,000个QA对。
➡️ 实验设计:实验在五个不同的设置下进行,包括零样本评估、不同训练集规模的影响、重新训练模型的性能比较以及不同3D-LLMs的性能对比。实验结果表明,3DBench在评估3D-LLMs的多模态任务性能方面具有显著优势,特别是在分类和计数任务上,模型性能提升了约20%。然而,部分文本生成和位置关系任务的性能有所下降,这可能与使用GPT-3.5获取世界知识有关。
DesignProbe: A Graphic Design Benchmark for Multimodal Large Language Models
➡️ 论文标题:DesignProbe: A Graphic Design Benchmark for Multimodal Large Language Models
➡️ 论文作者:Jieru Lin, Danqing Huang, Tiejun Zhao, Dechen Zhan, Chin-Yew Lin
➡️ 研究机构: Harbin Institute of Technology, Microsoft
➡️ 问题背景:图形设计在日常生活中无处不在,从电影海报到幻灯片,良好的图形设计通常在两个层面上实现和谐:细粒度的设计元素(如颜色、字体和布局)和整体设计。这种复杂性使得理解图形设计具有挑战性,因为它需要同时识别设计元素和理解设计。现有的视觉模型在识别设计元素方面存在困难,因为这些模型缺乏与设计相关的数据。此外,理解设计同样具有挑战性,因为这些模型可能首次遇到设计任务,而没有设计知识,如颜色的对比和和谐、不同字体的清晰度和象征意义,以及布局中的有意安排。
➡️ 研究动机:尽管多模态大语言模型(MLLMs)在图像到文本任务中表现出色,但目前对这些模型在图形设计领域的理解能力的评估有限。为了填补这一空白,研究团队提出了DesignProbe,这是一个基准测试,旨在评估MLLMs在图形设计任务中的表现。通过这一基准测试,研究团队希望为未来的模型改进提供有价值的见解。
➡️ 方法简介:研究团队构建了DesignProbe,包括八个任务,涵盖细粒度元素层面和整体设计层面。在元素层面,任务包括颜色、字体和布局的属性识别和语义理解;在整体设计层面,任务包括风格分类和视觉隐喻。研究团队使用GPT-4作为评估器,自动评估模型的输出,以减少人工评估的成本和不稳定性。
➡️ 实验设计:研究团队在九个多模态大语言模型上进行了实验,包括GPT-4 Vision、Gemini Pro Vision等。实验设计了不同的任务,如颜色主题识别、字体提取、负空间检测、颜色意义理解、字体风格理解、视觉重要性识别、整体风格识别和视觉隐喻理解。此外,研究团队还进行了提示优化实验,通过不同的LLMs重写问题,发现使用对应LLMs的模型在提示优化后性能提升显著。研究还探索了在提示中添加文本和图像信息的效果,发现直接添加图像信息比文本描述更能提升模型性能。
ImplicitAVE: An Open-Source Dataset and Multimodal LLMs Benchmark for Implicit Attribute Value Extraction
➡️ 论文标题:ImplicitAVE: An Open-Source Dataset and Multimodal LLMs Benchmark for Implicit Attribute Value Extraction
➡️ 论文作者:Henry Peng Zou, Vinay Samuel, Yue Zhou, Weizhi Zhang, Liancheng Fang, Zihe Song, Philip S. Yu, Cornelia Caragea
➡️ 研究机构: University of Illinois Chicago、Carnegie Mellon University
➡️ 问题背景:现有的属性值提取(Attribute Value Extraction, AVE)数据集主要关注显式属性值,而忽视了隐式属性值,且缺乏产品图像,通常不公开,且缺乏跨多个领域的深入人工检查。这些限制使得隐式属性值提取在实际应用中面临挑战。
➡️ 研究动机:为了解决上述问题,研究团队开发了ImplicitAVE,这是第一个公开的多模态隐式属性值提取数据集。该数据集旨在填补现有数据集的空白,提供一个高质量的基准,以评估多模态大语言模型(MLLMs)在隐式属性值提取任务中的表现。
➡️ 方法简介:研究团队通过从MAVE数据集中收集初始数据,经过数据精炼、扩展和验证,构建了ImplicitAVE数据集。数据集包含68,000个训练样本和1,610个测试样本,覆盖了五个领域的25个属性。此外,研究团队还对六种最近的MLLMs及其变体进行了全面的基准测试,以评估它们在不同设置下的性能。
➡️ 实验设计:实验在多个领域和属性级别上进行了评估,包括零样本、少样本和全数据微调设置。实验结果表明,尽管MLLMs在某些任务上表现出色,但隐式属性值提取仍然是一个具有挑战性的任务。研究团队还提供了详细的错误案例分析,为未来的研究提供了有价值的见解。