当前位置：首页 > news >正文

多模态大语言模型arxiv论文略读（130）

news 2025/10/11 10:06:36

在这里插入图片描述

EMMA: Efficient Visual Alignment in Multi-Modal LLMs

➡️ 论文标题：EMMA: Efficient Visual Alignment in Multi-Modal LLMs
➡️ 论文作者：Sara Ghazanfari, Alexandre Araujo, Prashanth Krishnamurthy, Siddharth Garg, Farshad Khorrami
➡️ 研究机构: New York University
➡️ 问题背景：多模态大型语言模型（MLLMs）通过结合视觉基础模型和语言模型，展示了在多种任务中的强大能力。然而，当前的多模态模型在融合视觉和文本编码时面临挑战，尤其是在任务特定适应性和灵活性方面。现有的方法通常依赖于复杂的跨模态模块，这增加了模型的复杂性和训练数据的需求。
➡️ 研究动机：为了提高多模态模型的效率和性能，研究团队提出了一种轻量级的多模态适应机制（EMMA），旨在通过早期融合视觉和文本编码，减少参数增加，同时保持高性能。
➡️ 方法简介：EMMA通过整合CLIP的视觉和文本编码器，利用预训练的对齐关系，生成指令感知的视觉表示。该方法通过一个轻量级的视觉对齐模块（Visual Alignment module）实现早期融合，该模块由一个简单的线性层组成，能够有效结合视觉和文本令牌，生成多模态编码。
➡️ 实验设计：研究团队在多个基准测试上进行了实验，包括视觉问答（VQA）、科学问答（SQA）、多模态视觉基准（MMBench）等。实验结果表明，EMMA在多个任务上显著提高了性能，尤其是在区分相似图像和减少幻觉方面表现出色。与现有的大型模型相比，EMMA在参数量和训练数据需求上显著减少，但性能却有显著提升。

SCA: Highly Efficient Semantic-Consistent Unrestricted Adversarial Attack

➡️ 论文标题：SCA: Highly Efficient Semantic-Consistent Unrestricted Adversarial Attack
➡️ 论文作者：Zihao Pan, Weibin Wu, Yuhang Cao, Zibin Zheng
➡️ 研究机构: Sun Yat-sen University
➡️ 问题背景：基于深度神经网络的系统在学习特征和实现各种任务的高性能方面表现出色，但它们对小的扰动（即对抗样本）非常敏感，这引发了对关键决策系统安全性的重大担忧。对抗样本必须在保持高语义一致性的同时，保持人类视觉不可感知性和照片真实感，以确保对抗攻击的有效性。
➡️ 研究动机：现有的对抗攻击方法虽然能够生成视觉上逼真的对抗样本，但往往导致显著的语义变化，降低了攻击的隐蔽性。为了克服这些限制，研究团队提出了一种新的框架——语义一致的无限制对抗攻击（SCA），该框架利用有效的逆向方法和强大的多模态大语言模型（MLLM）生成对抗样本，这些样本在保持图像整体语义的同时，具有最小的语义失真。
➡️ 方法简介：研究团队提出了一种新的逆向方法，通过提取编辑友好的噪声图，并利用MLLM提供的丰富语义信息，指导整个攻击过程。具体来说，该方法包括两个主要部分：语义固定逆向（Semantic Fixation Inversion）和语义引导扰动（Semantically Guided Perturbation）。语义固定逆向通过将干净图像映射到潜在空间，并在逆向扩散过程中保持语义一致性；语义引导扰动则在潜在空间中优化对抗目标，使图像内容朝着欺骗模型的方向变化，直到攻击成功。
➡️ 实验设计：研究团队在多个数据集上进行了实验，包括图像到图像（Image-to-Image, I2I）任务。实验设计了不同的因素（如噪声图的统计独立性、噪声控制等），以及不同类型的攻击目标（如欺骗性、自然性等），以全面评估模型在生成对抗样本时的效率和语义一致性。实验结果表明，SCA在保持高语义一致性的同时，攻击效率提高了12倍。

Dog-IQA: Standard-guided Zero-shot MLLM for Mix-grained Image Quality Assessment

➡️ 论文标题：Dog-IQA: Standard-guided Zero-shot MLLM for Mix-grained Image Quality Assessment
➡️ 论文作者：Kai Liu, Ziqing Zhang, Wenbo Li, Renjing Pei, Fenglong Song, Xiaohong Liu, Linghe Kong, Yulun Zhang
➡️ 研究机构: Shanghai Jiao Tong University, The Chinese University of Hong Kong, Huawei Technologies Ltd.
➡️ 问题背景：图像质量评估（IQA）是几乎所有计算机视觉领域模型性能的金标准。然而，现有的IQA方法在泛化能力和训练成本方面存在显著问题，尤其是在处理未见分布（OOD）数据时。这些问题限制了IQA方法在实际应用中的有效性和效率。
➡️ 研究动机：为了解决现有IQA方法在泛化能力和训练成本上的不足，研究团队提出了Dog-IQA，这是一种标准引导的零样本多粒度IQA方法，无需任何特定任务的训练或微调。该方法旨在充分利用预训练的多模态大语言模型（MLLMs）的先验知识，提供准确的IQA评分。
➡️ 方法简介：Dog-IQA的设计灵感来源于人类评估图像质量的过程和MLLMs的行为模式。该方法包括两个关键技术：标准引导评分机制和多粒度聚合机制。标准引导评分机制通过提供明确的质量标准，确保评分的一致性和客观性；多粒度聚合机制通过分割图像并聚合局部和全局评分，提高最终评分的准确性。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括KonIQ、LIVE Challenge、SPAQ、KADID-10k和AGIQA-3k。实验评估了Dog-IQA在不同数据集上的零样本性能，并与现有的训练自由和训练基线方法进行了比较。实验结果表明，Dog-IQA在训练自由方法中达到了最先进的性能，并在跨数据集场景中与训练基线方法具有竞争力。

LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model

➡️ 论文标题：LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model
➡️ 论文作者：Duy M. H. Nguyen, Nghiem T. Diep, Trung Q. Nguyen, Hoang-Bao Le, Tai Nguyen, Tien Nguyen, TrungTin Nguyen, Nhat Ho, Pengtao Xie, Roger Wattenhofer, James Zhou, Daniel Sonntag, Mathias Niepert
➡️ 研究机构: Max Planck Research School for Intelligent Systems (IMPRS-IS)、University of Stuttgart、German Research Centre for Artificial Intelligence (DFKI)、Technical University of Munich、University Medical Center Göttingen、Max Planck Institute for Multidisciplinary Sciences、Oldenburg University、University of Queensland、University of Texas at Austin、University of California San Diego、ETH Zurich、Stanford University
➡️ 问题背景：当前的医疗多模态大语言模型（Medical Multi-Modal Large Language Models, med-MLLMs）如LLAVA-MED和BIOMEDGPT，在预训练阶段利用指令跟随数据（Instruction-Following Data, IF Data）来提升性能。然而，这些模型主要依赖于自回归学习目标，这导致了视觉和语言模态之间的弱对齐，使得模型高度依赖于大规模的预训练数据集，这在医疗领域尤为困难，因为高质量的指令跟随数据集的构建既昂贵又耗时。
➡️ 研究动机：现有的自回归学习方法在医疗多模态大语言模型中表现出对数据的高需求，即在预训练阶段如果没有足够的指令跟随数据，模型在下游任务中的性能会显著下降，即使经过微调也是如此。为了克服这一挑战，研究团队提出了一种新的多图对齐算法（LOGRA-MED），旨在通过增强模型对复杂视觉和语言模态之间交互的学习能力，减少对大规模数据集的依赖。
➡️ 方法简介：LOGRA-MED算法通过构建三元组约束，将图像、其指令数据及其扩展版本在潜在嵌入空间中对齐。具体来说，算法首先使用GPT-4生成指令数据的长上下文扩展版本，然后通过视觉编码器和语言模型分别提取图像和文本的特征。这些特征被用于构建三个图，分别代表图像特征、原始指令数据的嵌入和扩展版本的嵌入。通过解决这三个图之间的组合多图对齐问题，模型能够学习到更深层次的语义关系，提高跨模态的一致性。
➡️ 实验设计：研究团队在三个公开数据集上进行了实验，包括医疗视觉问答（Medical VQA）任务、医疗视觉聊天和零样本图像分类。实验设计了不同的预训练数据量（10%和100%），以评估模型在不同数据规模下的性能。实验结果表明，使用LOGRA-MED算法，即使在10%的预训练数据量下，模型的性能也能与使用100%数据量的LLAVA-MED相媲美，甚至在某些任务上显著超越。此外，LOGRA-MED在多个医疗VQA任务、医疗视觉聊天和零样本图像分类任务上均表现出色，显著优于其他最先进的医疗多模态大语言模型。

SELU: Self-Learning Embodied MLLMs in Unknown Environments

➡️ 论文标题：SELU: Self-Learning Embodied MLLMs in Unknown Environments
➡️ 论文作者：Boyu Li, Haobin Jiang, Ziluo Ding, Xinrun Xu, Haoran Li, Dongbin Zhao, Zongqing Lu
➡️ 研究机构: 中国科学院自动化研究所、中国科学院大学人工智能学院、北京人工智能研究院、北京大学计算机学院、中国科学院软件研究所
➡️ 问题背景：多模态大语言模型（MLLMs）在各种领域展示了强大的视觉理解和决策能力，但这些模型在未知环境中的泛化能力不足，尤其是在一些不常见的环境中，MLLMs经常出现幻觉和视觉理解错误。现有的方法主要集中在通过投票和评分机制增强MLLMs的决策能力，而对提高MLLMs在未知环境中的环境理解能力的研究较少。
➡️ 研究动机：为了充分利用MLLMs的自学习潜力，研究团队提出了一种新的自学习范式SELU，该范式受到强化学习中actor-critic范式的启发，旨在使MLLMs能够在没有外部反馈的情况下自我适应未知环境。通过自我反馈和回溯重标记等技术，SELU能够提高模型的环境理解和决策能力。
➡️ 方法简介：SELU框架包括两个主要模块：actor MLLM和critic MLLM。actor MLLM根据指令在环境中收集轨迹，而critic MLLM则评估这些轨迹，并通过自我提问和回溯重标记来优化自身。critic MLLM的优化数据集通过自我提问和回溯重标记生成，而actor MLLM则通过critic MLLM的评估结果来改进其决策性能。
➡️ 实验设计：研究团队在AI2-THOR和VirtualHome两个环境中进行了实验，评估了SELU在不同任务中的表现。实验设计了多种任务类别，包括拾取、打开和破坏等，以全面评估模型的自学习能力。实验结果表明，SELU在没有外部反馈的情况下，能够显著提高critic MLLM和actor MLLM的性能，分别达到了约28%和30%的critic改进，以及约20%和24%的actor改进。

查看全文

http://www.dtcms.com/a/255246.html