多模态大语言模型arxiv论文略读(155)
Panther: Illuminate the Sight of Multimodal LLMs with Instruction-Guided Visual Prompts
➡️ 论文标题:Panther: Illuminate the Sight of Multimodal LLMs with Instruction-Guided Visual Prompts
➡️ 论文作者:Honglin Li, Yuting Gao, Chenglu Zhu, Jingdong Chen, Ming Yang, Lin Yang
➡️ 研究机构: Zhejiang University、Westlake University、Ant Group
➡️ 问题背景:多模态大语言模型(MLLMs)在视觉感知能力上迅速接近人类水平,但在处理细微图像细节或精确定位小物体等任务上仍存在不足。现有方法主要通过部署多个视觉编码器或处理高分辨率图像来解决这些问题,但这些方法往往忽略了文本指令在改善视觉表示中的作用,导致在某些视觉中心任务中失去焦点,这种现象被研究者称为“弱视”(Amblyopia)。
➡️ 研究动机:为了克服现有MLLMs中的“弱视”问题,研究团队提出了一种新的框架——Panther,该框架通过将用户指令转化为视觉提示,指导视觉编码器提取与指令相关的视觉特征,从而提高模型对用户指令的响应能力和对目标对象的精确定位能力。
➡️ 方法简介:Panther框架由三个核心模块组成:Panther-VE(视觉编码器)、Panther-Bridge(桥接模块)和Panther-Decoder(解码器)。Panther-VE通过轻量级文本编码器将用户指令转化为文本嵌入,并通过多层感知器将其投影到视觉空间,生成指令感知的视觉提示。Panther-Bridge通过过滤冗余的视觉令牌,减少多轮对话中的计算成本。Panther-Decoder则通过交错训练模式,支持任何解码器架构的LLMs。
➡️ 实验设计:研究团队在多个基准数据集上进行了实验,包括视觉问答、指令跟随和视觉中心任务。实验结果验证了Panther在视觉中心任务上的有效性,特别是在视觉问答和指令跟随任务上表现突出。此外,通过与现有最先进的多模态模型进行比较,Panther在多个基准测试中表现出显著的性能提升。
Separable Mixture of Low-Rank Adaptation for Continual Visual Instruction Tuning
➡️ 论文标题:Separable Mixture of Low-Rank Adaptation for Continual Visual Instruction Tuning
➡️ 论文作者:Ziqi Wang, Chang Che, Qi Wang, Yangyang Li, Zenglin Shi, Meng Wang
➡️ 研究机构: Hefei University of Technology, Tsinghua University, Academy of Cyber
➡️ 问题背景:视觉指令调优(Visual Instruction Tuning, VIT)使多模态大语言模型(Multimodal Large Language Models, MLLMs)能够通过将任务框架为语言指令来有效处理各种视觉任务。在此基础上,持续视觉指令调优(Continual Visual Instruction Tuning, CVIT)进一步扩展了MLLMs的能力,使其能够增量学习新任务,适应不断变化的功能需求。然而,现有的CVIT研究大多遵循传统的持续学习范式,忽视了CVIT特有的挑战,如视觉理解和指令跟随能力的双重灾难性遗忘。
➡️ 研究动机:研究团队发现,MLLMs在CVIT过程中不仅会忘记先前学习的视觉理解能力,还会随着新任务的学习而逐渐丧失指令跟随能力。为了解决这一问题,研究团队提出了分离混合低秩适应(Separable Mixture of Low-Rank Adaptation, SMoLoRA)框架,通过分离路由策略,专门适应视觉理解和指令跟随两个领域,从而防止遗忘并提高性能。
➡️ 方法简介:SMoLoRA框架通过两个独立的模块——视觉理解模块和指令跟随模块——实现分离路由。每个模块根据输入的视觉特征和指令信息动态选择最合适的低秩适应(LoRA)块,从而防止不同任务之间的干扰。此外,SMoLoRA还引入了自适应融合模块,对分离路由后的结果进行加权融合,进一步提升模型的适应性和鲁棒性。
➡️ 实验设计:研究团队构建了一个新的CVIT基准测试,不仅评估模型在标准任务上的准确性和遗忘情况,还评估了模型在未见过的任务上的泛化能力和处理多样化指令的能力。实验在多个公开数据集上进行,包括视觉问答(VQA)、图像分类和图像描述等任务。实验结果表明,SMoLoRA在缓解双重灾难性遗忘、提高新任务的泛化能力和确保指令跟随的鲁棒性方面均优于现有方法。
Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models
➡️ 论文标题:Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models
➡️ 论文作者:Yuhao Dong, Zuyan Liu, Hai-Long Sun, Jingkang Yang, Winston Hu, Yongming Rao, Ziwei Liu
➡️ 研究机构: S-Lab (NTU), Tencent, Tsinghua University, Nanjing University
➡️ 问题背景:尽管大型语言模型(LLMs)和多模态大型语言模型(MLLMs)在多种任务中展现了强大的能力,但如何使这些模型具备人类级别的推理能力仍然是一个挑战。特别是在视觉-语言任务中,缺乏高质量的长链推理数据和优化的训练管道,限制了模型在复杂多模态任务中的推理能力。
➡️ 研究动机:现有的研究主要集中在通过长链推理增强LLMs的能力,但多模态LLMs在视觉推理方面的长链推理能力尚未得到充分探索。为了解决这一问题,研究团队提出了Insight-V,旨在生成高质量的长链推理数据,并设计有效的训练管道,以增强MLLMs的推理能力。
➡️ 方法简介:研究团队设计了一个两步数据生成管道,包括逐步生成长链推理数据和多粒度评估系统,以确保数据质量。此外,还设计了一个多代理系统,将问题解决过程分解为推理和总结两个阶段,通过迭代DPO算法进一步优化推理质量。
➡️ 实验设计:研究团队在多个视觉-语言基准测试上评估了Insight-V的性能,包括视觉推理和一般图像理解任务。实验不仅验证了Insight-V在视觉推理任务上的显著性能提升,还展示了其在一般图像理解任务中的稳定表现。通过与现有最先进的MLLMs进行比较,研究团队证明了Insight-V的有效性和通用性。
LLaVA-MR: Large Language-and-Vision Assistant for Video Moment Retrieval
➡️ 论文标题:LLaVA-MR: Large Language-and-Vision Assistant for Video Moment Retrieval
➡️ 论文作者:Weiheng Lu, Jian Li, An Yu, Ming-Ching Chang, Shengpeng Ji, Min Xia
➡️ 研究机构: Peking University、Tencent Youtu、University at Albany、Zhejiang University
➡️ 问题背景:多模态大语言模型(MLLMs)在视觉感知、理解和推理任务中表现出色。然而,处理长视频和精确时刻检索仍然具有挑战性,主要由于LLMs的上下文大小有限和粗略的帧提取方法。视频时刻检索(Video Moment Retrieval, MR)旨在根据自然语言查询定位视频中的特定时间片段,这要求模型能够有效理解视频内容并精确捕捉与查询相关的瞬时细节。
➡️ 研究动机:现有的方法在处理长视频时,由于依赖于帧级特征提取和预测头的设计,导致理解能力有限和鲁棒性不足。研究团队提出了一种新的方法——大型语言和视觉助手用于时刻检索(LLaVA-MR),旨在通过增强MLLMs的时间感知能力和捕捉长视频中的关键瞬时信息,提高时刻检索的精度。
➡️ 方法简介:LLaVA-MR通过结合密集帧和时间编码(DFTE)、信息帧选择(IFS)和动态令牌压缩(DTC)来优化MLLMs。DFTE用于提取细粒度的空间和时间特征,IFS用于捕捉短暂的视觉和运动模式,DTC用于减少序列长度同时保留关键信息。
➡️ 实验设计:研究团队在Charades-STA和QVHighlights两个基准数据集上进行了实验。实验设计了不同的帧采样数量、时间编码方法、信息帧选择策略和动态令牌压缩方法,以全面评估模型在不同条件下的表现。实验结果表明,LLaVA-MR在多个评估指标上均优于现有的11种最先进方法,特别是在QVHighlights数据集上,R1@0.5和mAP@0.5分别提高了1.82%和1.29%。
Evaluating and Advancing Multimodal Large Language Models in Ability Lens
➡️ 论文标题:Evaluating and Advancing Multimodal Large Language Models in Ability Lens
➡️ 论文作者:Feng Chen, Chenhui Gou, Jing Liu, Yang Yang, Zhaoyang Li, Jiyuan Zhang, Zhenbang Sun, Bohan Zhuang, Qi Wu
➡️ 研究机构: University of Adelaide、Monash University、The Australian National University、TikTok Australia、Zhejiang University
➡️ 问题背景:随着多模态大语言模型(Multimodal Large Language Models, MLLMs)的快速发展,严格的评估变得至关重要,以提供进一步发展的指导。当前的感知基准测试(Perception Benchmarks)在问题类型、领域和评估指标上各有侧重,导致评估结果存在显著差异,难以全面评估模型的感知能力。此外,现有的基准测试主要关注模型的准确性,而忽视了模型在不同因素下的稳定性和一致性。
➡️ 研究动机:为了克服现有感知基准测试的局限性,研究团队设计了一个统一的基准测试——AbilityLens,旨在全面评估MLLMs在六个关键感知能力上的表现,包括准确性与稳定性。通过AbilityLens,研究团队能够识别当前模型的优势和劣势,揭示开源与闭源模型之间的性能差距,并提出了一种简单有效的模型合并方法,以缓解能力冲突导致的性能下降。
➡️ 方法简介:研究团队通过整合11个现有基准测试的数据,构建了包含12,000个测试样本的AbilityLens。每个感知能力类型下都有超过1,000个测试样本,确保了数据的多样性和代表性。此外,研究团队引入了基线校正,以消除不同问题类型对评估结果的影响,并通过加权和计算模型的总体准确性,以及通过计算子指标的标准差来评估模型的稳定性。
➡️ 实验设计:研究团队在14个最先进的MLLMs上进行了离线评估,包括不同模型大小和训练数据的商业模型和开源模型。实验结果不仅展示了模型在不同感知能力上的表现,还揭示了模型在训练过程中的动态变化,特别是早期收敛和能力冲突现象。此外,研究团队还提出了一种能力特定的模型合并方法(Ability-specific Model Merging, ASMM),通过线性插值合并不同训练阶段的模型,以增强特定能力,同时保持整体性能,显著减少了计算成本。