当前位置: 首页 > news >正文

多模态大语言模型arxiv论文略读(五十八)

请添加图片描述

How Does the Textual Information Affect the Retrieval of Multimodal In-Context Learning?

➡️ 论文标题:How Does the Textual Information Affect the Retrieval of Multimodal In-Context Learning?
➡️ 论文作者:Yang Luo, Zangwei Zheng, Zirui Zhu, Yang You
➡️ 研究机构: National University of Singapore (NUS)
➡️ 问题背景:多模态大语言模型(MLLMs)在上下文学习(In-Context Learning, ICL)中展现出显著的能力,特别是在不更新预训练参数的情况下提高任务性能。然而,当前的多模态上下文学习方法在选择上下文示例时过于依赖视觉数据,忽视了文本信息的重要性。此外,监督式检索器在多模态上下文学习中的应用尚未得到充分研究。
➡️ 研究动机:研究团队旨在深入探讨文本信息在多模态上下文学习中的作用,特别是在无监督和监督式检索中的影响。通过这一研究,团队希望开发出一种能够更高效地选择上下文示例的监督式检索框架,从而提高多模态上下文学习的性能。
➡️ 方法简介:研究团队提出了一种多模态监督式上下文示例检索(MSIER)框架,该框架通过结合视觉和文本信息来选择更相关的上下文示例。MSIER利用预训练的MLLM评分器来评估潜在示例的相关性和适用性,从而提高示例选择的效率。
➡️ 实验设计:研究团队在三个不同的多模态任务上进行了实验,包括图像描述(Image Captioning)、视觉问答(Visual Question Answering)和仇恨言论分类(Hateful Memes Classification)。实验设计了不同的设置,包括无监督和监督式检索方法,以及不同数量的示例(从4个到32个),以全面评估MSIER方法的有效性和可迁移性。

Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning

➡️ 论文标题:Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning
➡️ 论文作者:Yian Li, Wentao Tian, Yang Jiao, Jingjing Chen, Na Zhao, Yu-Gang Jiang
➡️ 研究机构: Fudan University、Singapore University of Technology and Design
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在多个学科中取得了显著的成功,因其出色的指令跟随能力和广泛的世界知识。然而,这些MLLMs是否具备类似人类的组合推理能力仍然是一个未解的问题。研究发现,大多数流行的MLLMs在问题中引入假设前提时容易被误导,而这些假设前提对人类推理来说显得非常简单。
➡️ 研究动机:为了揭示MLLMs的推理行为,研究团队构建了一个多模态假设推理基准(Multimodal Assumptive Reasoning Benchmark, MARS-Bench),并提出了一种主动推理(Active Deduction, AD)方法,旨在鼓励模型在做出最终决定前主动进行组合推理。通过MARS-Bench的广泛评估和AD方法的实验分析,研究团队希望提高现有MLLMs的假设推理能力,同时不牺牲其通用问题回答性能。
➡️ 方法简介:研究团队构建了MARS-Bench,该基准包含两组问题:一组是基础的视觉问题,另一组是在基础问题前引入假设前提的问题。通过比较模型在这两组问题上的表现,可以有效评估模型对假设前提的敏感性。此外,研究团队还提出了AD方法,通过引入两个特殊标记和来表示推理过程的开始和结束,使模型能够根据问题的复杂性动态调整推理深度。
➡️ 实验设计:研究团队在MARS-Bench上评估了八个开源模型和一个先进的私有模型GPT-4o。实验设计了不同难度的问题,包括基础问题和假设前提问题,以全面评估模型的假设推理能力和通用问题回答性能。实验结果表明,所有开源模型在假设前提问题上的表现都有显著下降,而GPT-4o表现出较强的鲁棒性。此外,AD方法在假设推理任务上显著提高了模型的性能,而对通用问题回答性能的影响较小。

Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

➡️ 论文标题:Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models
➡️ 论文作者:Chuofan Ma, Yi Jiang, Jiannan Wu, Zehuan Yuan, Xiaojuan Qi
➡️ 研究机构: The University of Hong Kong、ByteDance Inc.
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉-语言任务中表现出色,如图像描述和视觉问答。然而,这些模型在区域级任务中表现不佳,无法将理解与视觉上下文进行精确对齐,限制了其在机器人、自动驾驶和增强现实等实际应用中的潜力。
➡️ 研究动机:为了克服现有MLLMs在区域级任务中的局限性,研究团队提出了一种新的方法——Groma,通过局部视觉分词机制(Localized Visual Tokenization)来增强模型的区域理解和视觉对齐能力。Groma不仅能够处理用户指定的区域输入,还能生成与图像区域对齐的文本输出,从而在标准的指代和对齐基准测试中表现出色。
➡️ 方法简介:Groma通过将图像输入分解为感兴趣的区域,并将这些区域编码为区域分词,从而实现细粒度的视觉理解。这些区域分词被集成到用户指令和模型响应中,使Groma能够理解和生成与特定图像区域对齐的文本。此外,研究团队还构建了一个视觉对齐的指令数据集Groma Instruct,以进一步提高模型的对话和对齐能力。
➡️ 实验设计:研究团队在多个数据集上进行了实验,包括图像描述、区域描述和指代表达理解等任务。实验结果表明,Groma在标准的指代和对齐基准测试中显著优于其他MLLMs,特别是在处理多个、多样性和不同大小的物体时,Groma的定位能力尤为突出。

MoVA: Adapting Mixture of Vision Experts to Multimodal Context

➡️ 论文标题:MoVA: Adapting Mixture of Vision Experts to Multimodal Context
➡️ 论文作者:Zhuofan Zong, Bingqi Ma, Dazhong Shen, Guanglu Song, Hao Shao, Dongzhi Jiang, Hongsheng Li, Yu Liu
➡️ 研究机构: CUHK MMLab、SenseTime Research、Shanghai AI Laboratory、CPII under InnoHK
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在解决开放世界任务方面表现出色,但单一的视觉编码器(如CLIP视觉编码器)在处理不同任务和场景时表现不一致,这限制了模型的泛化能力。例如,CLIP视觉编码器在通用图像理解上表现出色,但在文档或图表内容理解上表现较差。
➡️ 研究动机:为了提高MLLMs在不同任务和场景中的泛化能力,研究团队通过分析不同预训练视觉编码器的性能,提出了一种新的MLLM——MoVA。MoVA通过粗粒度的上下文感知专家路由和细粒度的专家融合机制,动态选择和融合任务特定的视觉专家,以充分利用这些专家的能力,同时避免无关专家带来的偏差。
➡️ 方法简介:MoVA包含五个关键组件:预训练的大语言模型(LLM)、基础视觉编码器、任务特定的视觉专家、混合视觉专家适配器(MoV-Adapter)以及上下文感知的专家路由策略。在粗粒度阶段,通过LLM选择与用户图像和指令最相关的视觉专家;在细粒度阶段,MoV-Adapter通过混合专家(MoE)交叉注意力层提取任务特定的知识,并通过动态门控网络分配精确的专家权重,最终将提取的知识有效集成到基础视觉编码器的表示中。
➡️ 实验设计:研究团队在多个基准数据集上进行了广泛的实验,包括多模态理解、视觉问答(VQA)、视觉定位和生物医学理解等任务。实验结果表明,MoVA在各种挑战性基准测试中显著优于当前的最先进方法。此外,通过详细的消融研究,研究团队验证了MoVA各组件的有效性。

MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning

➡️ 论文标题:MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning
➡️ 论文作者:Yifan Jiang, Jiarui Zhang, Kexuan Sun, Zhivar Sourati, Kian Ahrabian, Kaixin Ma, Filip Ilievski, Jay Pujara
➡️ 研究机构: Information Sciences Institute, University of Southern California、Tencent AI Lab、Vrije Universiteit Amsterdam
➡️ 问题背景:多模态大语言模型(MLLMs)在许多流行的视觉推理基准测试中展示了显著的进步。然而,这些模型是否具备抽象视觉推理能力仍然是一个开放的问题。现有的抽象视觉推理(AVR)基准测试仅考虑了有限的模式、输入形状和任务配置,导致评估结果存在偏差。
➡️ 研究动机:为了全面评估MLLMs的抽象视觉推理能力,研究团队引入了MARVEL,一个多维度的AVR基准测试。MARVEL旨在通过涵盖不同的模式、输入形状和任务配置,提供一个更全面的评估框架。此外,MARVEL还结合了感知问题,以确保模型能够正确感知视觉模式,从而为后续的抽象推理提供基础。
➡️ 方法简介:研究团队构建了MARVEL基准测试,该基准测试包含770个由六个核心知识模式、几何和抽象形状以及五种不同任务配置组成的谜题。每个谜题都包含一个AVR问题和多个感知问题,以评估模型在不同任务配置下的表现。
➡️ 实验设计:研究团队在MARVEL上对九个代表性的MLLMs进行了零样本和少样本设置的实验。实验设计了不同模型结构、模型大小和提示策略,以全面评估模型在抽象视觉推理任务中的表现。实验结果表明,所有MLLMs在AVR问题上的表现接近随机,与人类表现存在显著差距(40%)。进一步的分析显示,MLLMs在细粒度视觉特征理解上的困难是其抽象推理能力不足的主要原因。

相关文章:

  • docker:制作镜像+上传镜像+拉取镜像
  • 开上“Python跑的车”——自动驾驶数据可视化的落地之道
  • 精品,CentOS7.9 Yum安装Nginx,并配置JSON日志格式
  • word页眉去掉线
  • ES类迁移方法
  • 字符串问题c++
  • 以太坊智能合约开发框架:Hardhat v2 核心功能从入门到基础教程
  • uniswap v4 hooks标志位
  • set autotrace报错
  • 模型部署——cuda编程入门
  • SpringMVC——第五章:视图View
  • qml显示视频帧(QQuickImageProvider)
  • 58认知干货:创业经验分享及企业形式的汇总
  • 【操作系统】深入理解内存管理:从虚拟内存到OOM Killer
  • 从实列中学习linux shell12 通过Shell脚本来优化MySQL数据库性能,特别是慢SQL跟踪和索引优化
  • Java学习手册:MyBatis 框架作用详解
  • 【LLM】deepseek R1之GRPO训练笔记(持续更新)
  • Axure打开html文件失败,解决方案:
  • Three.js在vue中的使用(二)-动画、材质
  • 微服务框架选型
  • 美国警方:爱达荷州交通事故致7人死亡,8名伤者预计无生命危险
  • 习近平给谢依特小学戍边支教西部计划志愿者服务队队员回信
  • 月薪3万文科友好,“AI训练师”真有那么赚?
  • 云南石屏举办茶文化交流活动:弘扬企业家精神,激发市场活力
  • 龚正盛秋平王晓真共同启动2025国际消费季暨第六届上海“五五购物节”
  • 特朗普称加总理将很快访美,白宫:不影响将加拿大打造成“第51个州”计划