多模态大语言模型arxiv论文略读(九十五)
Refusing Safe Prompts for Multi-modal Large Language Models
➡️ 论文标题:Refusing Safe Prompts for Multi-modal Large Language Models
➡️ 论文作者:Zedian Shao, Hongbin Liu, Yuepeng Hu, Neil Zhenqiang Gong
➡️ 研究机构: Duke University
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)已成为当前生成式AI生态系统的核心,引发了科技巨头和初创公司之间的激烈竞争。MLLMs通过结合图像和文本输入生成文本响应。尽管最先进的MLLMs使用安全过滤器和对齐技术来拒绝不安全的提示,但研究发现,攻击者可以通过在图像中添加微小的扰动来绕过这些安全机制,导致模型生成有害内容。
➡️ 研究动机:现有的研究主要集中在增强或绕过MLLMs对不安全提示的拒绝能力,但对MLLMs对安全提示的拒绝能力的研究较少。本研究旨在探索一种新的方法,通过在图像中添加几乎不可察觉的拒绝扰动,使竞争的MLLMs拒绝安全提示,从而为模型提供者带来竞争优势。
➡️ 方法简介:研究团队提出了一种名为MLLM-Refusal的方法,该方法通过优化拒绝扰动,使竞争的MLLMs在接收到包含扰动图像和安全问题的提示时,更可能拒绝响应。MLLM-Refusal通过构建一组影子问题来模拟正常用户的实际问题,并使用梯度下降方法解决一个约束优化问题,以确保拒绝扰动的有效性、局部性和隐蔽性。
➡️ 实验设计:研究团队在四个公开数据集(VQAv2、GQA、TextVQA和扩展的CelebA)上对四个开源MLLMs(LLaVA-1.5、MiniGPT-4、Qwen-VL-Chat和InstructBLIP)进行了评估。实验设计了不同的影子问题类型和拒绝扰动的强度,以评估MLLM-Refusal的有效性和对非竞争MLLMs的影响。此外,研究团队还评估了三种对抗MLLM-Refusal的对策,包括添加高斯噪声、使用DiffPure和对抗训练。
By My Eyes: Grounding Multimodal Large Language Models with Sensor Data via Visual Prompting
➡️ 论文标题:By My Eyes: Grounding Multimodal Large Language Models with Sensor Data via Visual Prompting
➡️ 论文作者:Hyungjun Yoon, Biniyam Aschalew Tolera, Taesik Gong, Kimin Lee, Sung-Ju Lee
➡️ 研究机构: KAIST、UNIST
➡️ 问题背景:大型语言模型(LLMs)在多个领域展现了卓越的能力,但在处理长序列传感器数据时,现有的文本提示方法性能显著下降。研究团队提出了一种新的方法,通过将传感器数据可视化为图像,利用多模态大型语言模型(MLLMs)来解决这一问题。这种方法不仅提高了性能,还大幅减少了令牌成本。
➡️ 研究动机:现有的研究主要集中在将传感器数据直接以文本形式输入LLMs,但这种方法在处理长序列数据时效果不佳,且成本高昂。为了克服这些挑战,研究团队探索了将传感器数据可视化为图像,并结合MLLMs的能力来提高处理传感器数据的效率和准确性。
➡️ 方法简介:研究团队设计了一种视觉提示方法,将传感器数据转换为图像,并结合任务特定的指令,以解决传感器任务。此外,他们还引入了一个可视化生成器,该生成器能够自动选择最适合特定任务的可视化方法,从而消除了对任务特定知识的需求。
➡️ 实验设计:研究团队在九个涉及四种不同模态的传感器任务上进行了实验,包括加速度计、心电图(ECG)传感器、肌电图(EMG)传感器和呼吸传感器。实验设计了不同的任务,如基本的人体活动识别、复杂的活动识别、心律失常诊断、手势识别和压力检测,以全面评估视觉提示方法的性能和成本效益。实验结果表明,视觉提示方法在平均准确率上提高了10%,同时将令牌成本降低了15.8倍。
Visualization Literacy of Multimodal Large Language Models: A Comparative Study
➡️ 论文标题:Visualization Literacy of Multimodal Large Language Models: A Comparative Study
➡️ 论文作者:Zhimin Li, Haichao Miao, Valerio Pascucci, Shusen Liu
➡️ 研究机构: University of Utah、Lawrence Livermore National Laboratory
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)结合了大型语言模型(LLMs)的内在优势和理解多模态上下文的新能力。这些模型在多种使用场景中展现出巨大的潜力,尤其是在可视化领域。然而,对于MLLMs在基于视觉感知的特定可视化任务中的表现,尤其是从可视化素养的角度,尚未进行充分的探索和评估。
➡️ 研究动机:尽管MLLMs在理解图表和信息图方面的能力已经通过各种视觉理解基准进行了评估,但这些评估往往缺乏对特定类型视觉编码或可视化任务的深入理解。此外,现有的数据集设计并未专门针对可视化评估,因此可能包含不良的可视化设计或过多的插图。本研究旨在通过引入可视化素养的概念,填补这一空白,对MLLMs在理解可视化方面的表现进行细致评估。
➡️ 方法简介:研究团队利用可视化素养的概念,开发了一种通用的评估框架,用于比较不同的多模态大语言模型(如GPT4-o、Claude 3 Opus、Gemini 1.5 Pro)以及与人类基线的表现。评估基于两个流行的可视化素养数据集(VLAT和mini-VLAT),涵盖了主要的视觉编码和可视化任务。
➡️ 实验设计:实验设计包括对Mini-VLAT和VLAT数据集的评估,这些数据集包含了一系列的可视化图表和问题。每个MLLM模型在每个问题上进行了10次独立测试,以减少随机性的影响。最终结果报告为10次测试的平均分数。实验过程完全自动化,通过Python脚本调用OpenAI、Google和Anthropic的API进行模型查询。实验还探讨了不同提示方式对模型表现的影响,但未进行提示优化,以避免引入模型间的隐性偏见。
➡️ 实验结果:实验结果显示,MLLMs在某些可视化任务上表现出色,如识别相关性、聚类分析和树状图解释。然而,它们在某些任务上也表现出明显的弱点,如颜色-语义关联的混淆和数值检索任务的低效。通过详细的错误分析,研究团队揭示了MLLMs在处理特定类型可视化时的局限性,并提出了改进的建议。
UrbanWorld: An Urban World Model for 3D City Generation
➡️ 论文标题:UrbanWorld: An Urban World Model for 3D City Generation
➡️ 论文作者:Yu Shang, Yuming Lin, Yu Zheng, Hangyu Fan, Jingtao Ding, Jie Feng, Jiansheng Chen, Li Tian, Yong Li
➡️ 研究机构: Tsinghua University、University of Science and Technology Beijing、Tsingroc Inc.
➡️ 问题背景:城市作为人类生活的核心环境,包含了复杂的物理元素和动态实体。创建逼真、互动的3D城市环境对于培养AGI系统和构建能够感知、决策和行动的AI代理至关重要。然而,传统方法依赖于设计师的大量手动劳动,涉及复杂的资产建模、纹理映射和场景组合。尽管生成式AI的发展提供了一些自动化的3D场景生成方法,但这些方法通常局限于视频格式,无法提供具身和互动的环境。
➡️ 研究动机:现有的3D城市生成方法在逼真度、互动性和可控性方面存在不足,无法完全满足实际需求。为了克服这些挑战,研究团队提出了UrbanWorld,这是一种能够自动创建逼真、定制和互动的3D城市环境的生成模型,旨在支持具身智能和AI代理的发展。
➡️ 方法简介:UrbanWorld通过四个关键阶段实现其目标:(1)灵活的3D布局生成,基于OSM数据或带有语义和高度图的布局数据;(2)Urban MLLM赋能的场景设计,利用细调的多模态大语言模型生成详细的场景描述;(3)可控的3D资产纹理渲染,基于扩散模型实现高质量的纹理生成;(4)Urban MLLM辅助的场景优化,通过迭代优化提高生成环境的逼真度和一致性。
➡️ 实验设计:研究团队在五个视觉指标上进行了广泛的定量评估,验证了UrbanWorld在生成逼真度方面的优越性。此外,还展示了不同文本和图像提示下的生成结果,突显了UrbanWorld的可控性。最后,通过展示代理在生成环境中的感知和导航,强调了生成环境的互动性。
Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning
➡️ 论文标题:Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning
➡️ 论文作者:Mustafa Dogan, Ilker Kesen, Iacer Calixto, Aykut Erdem, Erkut Erdem
➡️ 研究机构: Hacettepe University, Department of Computer Engineering; Aselsan Research; Koç University, KUIS AI Center; Koç University, Department of Computer Engineering; Amsterdam UMC, University of Amsterdam, Department of Medical Informatics; Amsterdam Public Health, Methodology & Mental Health, Amsterdam, The Netherlands
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种任务中展现出卓越的文本和视觉模态解释能力。然而,优化这些模型通常需要大量的资源和成本。为了减少这些成本,研究者们开发了有效的数据增强技术和优化算法,其中少样本学习(Few-Shot Learning, FSL)技术通过提供少量示例显著减少了微调的成本。FSL技术通过提供少量的上下文示例,使模型能够利用其内在知识解决复杂任务,而无需特定的预先训练。链式思维(Chain-of-Thought, CoT)提示方法则通过生成推理链来提高模型的推理能力,特别是在需要中间步骤的任务中。
➡️ 研究动机:尽管FSL和CoT技术在多模态环境中的个别效果已经得到了研究,但它们对MLLMs语言能力的综合影响尚未被充分探索。理解这种综合影响对于开发和部署更高效、更强大的MLLMs至关重要。因此,本研究利用VALSE(Vision And Language Structured Evaluation)基准,评估FSL和CoT对MLLMs语言能力的影响。
➡️ 方法简介:研究团队通过VALSE基准,对14种不同的MLLMs进行了全面评估,涵盖了零样本和少样本设置。评估方法包括使用混合模态上下文示例选择(MMICES)方法来选择与查询图像-文本对视觉和文本内容相似的示例,以及使用链式思维(CoT)方法来增强模型的推理能力。CoT方法通过生成详细的推理描述,帮助模型在推理过程中更加准确。
➡️ 实验设计:实验在VALSE基准的六个任务上进行,包括存在性、复数性、计数、空间关系、动作和共指。实验设计了不同的少样本设置,包括随机选择的示例和与查询图像-文本对相似的示例,以及使用和不使用CoT的设置,以全面评估模型在不同条件下的表现。