多模态大语言模型arxiv论文略读(134)
Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology
➡️ 论文标题:Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology
➡️ 论文作者:Xiangyu Wang, Donglin Yang, Ziqin Wang, Hohin Kwan, Jinyu Chen, Wenjun Wu, Hongsheng Li, Yue Liao, Si Liu
➡️ 研究机构: 北京航空航天大学、香港中文大学、感知与交互智能中心
➡️ 问题背景:基于视觉和语言指令导航到目标位置的代理(Vision-Language Navigation, VLN)吸引了广泛的研究兴趣。然而,大多数研究集中在地面代理上,而基于无人机(UAV)的VLN研究相对较少。现有的UAV VLN基准测试通常采用地面VLN设置,依赖于预定义的离散动作空间,忽视了无人机与地面代理在运动动态和导航任务复杂性上的固有差异。
➡️ 研究动机:为了应对这些差异和挑战,研究团队从平台、基准和方法论三个角度提出了解决方案。研究旨在通过引入更真实的UAV轨迹模拟、构建目标导向的VLN数据集和提出辅助引导的UAV对象搜索基准,来促进更贴近实际应用的UAV VLN研究。
➡️ 方法简介:研究团队提出了OpenUAV平台,该平台集成了多样化的环境、真实的飞行控制和广泛的算法支持,以实现UAV VLN任务的现实模拟。此外,团队构建了一个包含约12,000条轨迹的目标导向VLN数据集,这是首个专门为真实UAV VLN任务设计的数据集。为了应对复杂空中环境中的挑战,团队还提出了UAV-Need-Help基准,该基准通过提供不同级别的辅助信息来帮助UAV更好地完成任务。
➡️ 实验设计:研究在多个场景中进行了实验,包括目标导向的VLN任务和辅助引导的UAV对象搜索任务。实验设计了不同因素(如目标距离、环境复杂度和辅助信息的级别),以全面评估模型在不同条件下的表现。实验结果表明,所提出的方法显著优于基线模型,但仍与人类操作员的表现存在较大差距,突显了UAV-Need-Help任务的挑战性。
Personalized Visual Instruction Tuning
➡️ 论文标题:Personalized Visual Instruction Tuning
➡️ 论文作者:Renjie Pi, Jianshu Zhang, Tianyang Han, Jipeng Zhang, Rui Pan, Tong Zhang
➡️ 研究机构: The Hong Kong University of Science and Technology (HKUST), University of Illinois Urbana-Champaign
➡️ 问题背景:尽管多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种任务中取得了显著进展,但它们在个性化对话方面存在显著局限,即“面孔盲视”(face blindness)。这些模型能够进行一般性对话,但在针对特定个体的个性化对话中表现不佳,这限制了它们在个性化场景中的应用,如定制的视觉助手、家庭机器人等。
➡️ 研究动机:为了克服MLLMs在个性化对话中的局限,研究团队提出了个性化视觉指令调优(Personalized Visual Instruction Tuning, PVIT),旨在使MLLMs能够在无需额外训练的情况下,与任意个体进行个性化对话。研究通过构建高质量的个性化训练数据集,以及设计评估个性化能力的基准测试P-Bench,来验证PVIT的有效性。
➡️ 方法简介:PVIT方法通过将每个个体表示为<个人图像, 个人介绍>对,并作为多模态前缀提供给MLLM,来实现个性化对话。研究团队还引入了个性化包装标记(Personalized Wrapper Tokens),以消除多个个体信息之间的歧义。训练过程中,MLLM被优化以根据前缀中的目标个体回答问题。训练完成后,MLLM能够利用其上下文学习能力,对任意个体进行个性化对话,而无需额外的微调或模型架构修改。
➡️ 实验设计:研究团队设计了一个自动化的数据生成框架,该框架分为三个阶段:视觉概念收集、双层文本信息提取与融合、PVIT数据集生成。通过这个框架,研究团队合成了大规模的个性化训练数据集,并创建了评估个性化能力的基准测试P-Bench。实验结果表明,经过PVIT训练的MLLM在个性化对话任务上的表现显著提升。
Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis
➡️ 论文标题:Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis
➡️ 论文作者:Bohan Zeng, Ling Yang, Siyu Li, Jiaming Liu, Zixiang Zhang, Juanxi Tian, Kaixin Zhu, Yongzhen Guo, Fu-Yun Wang, Minkai Xu, Stefano Ermon, Wentao Zhang
➡️ 研究机构: 北京大学、香港中文大学、斯坦福大学
➡️ 问题背景:当前的4D生成方法在基于用户友好的条件生成高质量的4D对象或场景方面表现出色,对游戏和视频行业产生了积极影响。然而,这些方法在合成复杂4D场景中的显著对象变形和场景内交互方面存在困难。为了应对这一挑战,研究团队提出了TRANS4D,这是一种新的文本到4D合成框架,能够实现复杂的场景转换。
➡️ 研究动机:现有的4D生成方法在处理复杂4D场景的显著对象变形和全局交互方面存在局限性。为了克服这些局限,研究团队开发了TRANS4D,旨在通过多模态大型语言模型(MLLMs)进行物理感知的场景描述和有效的转换时间规划,以及通过几何感知的4D转换网络实现复杂的场景级4D转换。
➡️ 方法简介:研究团队提出了一个系统的方法,首先使用MLLMs生成物理感知的场景描述,用于4D场景初始化和转换时间规划。然后,通过几何感知的4D转换网络实现复杂的场景级4D转换,该网络能够处理表达性的几何对象变形。TRANS4D通过预测每个3DGS模型点在特定时间t是否出现或消失,实现自然和流畅的4D场景转换。
➡️ 实验设计:研究团队在多个复杂文本提示上进行了实验,这些提示涉及几何感知的4D场景转换。实验评估了TRANS4D在生成高质量4D场景方面的性能,包括场景的准确性和转换的自然性。实验结果表明,TRANS4D在所有评估指标上均优于现有的最先进方法,验证了其有效性和优越性。
PAR: Prompt-Aware Token Reduction Method for Efficient Large Multimodal Models
➡️ 论文标题:PAR: Prompt-Aware Token Reduction Method for Efficient Large Multimodal Models
➡️ 论文作者:Yingen Liu, Fan Wu, Ruihui Li, Zhuo Tang, Kenli Li
➡️ 研究机构: 湖南大学计算机科学与电子工程学院
➡️ 问题背景:多模态大型语言模型(MLLMs)在视觉任务中表现出色,但其处理长上下文的计算和内存需求较高,尤其是在多模态输入中。这导致了在部署和推理过程中,计算和内存资源的显著消耗。
➡️ 研究动机:为了提高多模态模型的效率,研究团队提出了一种新的方法——PAR(Prompt-Aware Token Reduction),旨在减少视觉令牌数量,同时保持模型性能。PAR通过识别和聚类关键视觉令牌,减少了计算负载,而无需额外的训练或复杂的架构修改。
➡️ 方法简介:PAR方法通过预定义的模板重写用户提示,增强其语义表示。然后,使用基于图的聚类算法将视觉令牌划分为有意义的语义簇,并通过提示引导的语义检索,选择与任务最相关的视觉令牌,以消除外部冗余。最后,通过令牌路由机制简化保留的令牌,去除内部冗余。
➡️ 实验设计:实验在四个流行的视觉问答基准数据集上进行,包括GQA、POPE、TextVQA和MME、MMBench、MMVet。实验评估了PAR在不同任务中的性能,特别是在减少计算量和保持高准确率方面的表现。实验结果表明,PAR在多个视觉问答任务中,减少了83%的FLOPs,压缩比达到89%,同时保持了97%的基线准确率。
Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs
➡️ 论文标题:Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs
➡️ 论文作者:Xiaoyuan Liu, Wenxuan Wang, Youliang Yuan, Jen-tse Huang, Qiuzhi Liu, Pinjia He, Zhaopeng Tu
➡️ 研究机构: 香港中文大学(深圳)、腾讯AI Lab、香港中文大学(香港特别行政区)
➡️ 问题背景:多模态大语言模型(MLLMs)在处理视觉-语言任务中表现出色,如图像描述、视觉问答和视觉推理。然而,当视觉信息与模型的内部常识知识发生冲突时,即“视觉-知识冲突”,这些模型的表现会受到影响。这种冲突在常识层面尤为明显,因为常识知识通常隐含且难以捕捉。
➡️ 研究动机:现有的研究主要集中在通过图像编辑技术生成反事实图像来评估和理解这些冲突,但对常识层面的视觉-知识冲突研究较少。为了填补这一空白,研究团队提出了一种自动化管道,结合人工质量控制,构建了一个基准,用于模拟和分析MLLMs中的常识级视觉-知识冲突。
➡️ 方法简介:研究团队提出了一种自动化管道,包括四个关键模块:知识组件提取、反常识查询构建、图像生成和问题-答案(QA)生成。该管道从头开始生成反常识输入,并设计为模块化,便于未来添加更多的冲突类别和QA格式。基于此框架,研究团队构建了CONFLICTVIS基准,该基准包含374张原始图像和1,122个高质量的QA对,涵盖了两种冲突目标和三个问题难度级别。
➡️ 实验设计:研究团队使用CONFLICTVIS基准评估了九个代表性的MLLMs,涵盖了五个模型系列。实验结果表明,MLLMs在面对知识冲突时倾向于过度依赖其参数化知识,尤其是在处理简单问题时。为了减少这种依赖,研究团队提出了一种新的提示策略“Focus-on-Vision”(FoV),该策略显著提高了MLLMs在处理视觉信息时的表现。