多模态大语言模型arxiv论文略读(116)
OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving
➡️ 论文标题:OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving
➡️ 论文作者:Julong Wei, Shanshuai Yuan, Pengfei Li, Qingda Hu, Zhongxue Gan, Wenchao Ding
➡️ 研究机构: Fudan University、Tsinghua University
➡️ 问题背景:近年来,多模态大语言模型(MLLMs)在自动驾驶领域取得了显著进展,但这些模型通常通过直接从感知到行动的映射来执行任务,忽略了世界动态和行动与世界动态之间的关系。相比之下,人类具备世界模型,能够基于3D内部视觉表示模拟未来状态并据此规划行动。因此,构建能够统一视觉、语言和行动(VLA)模态的模型,对于自动驾驶的发展至关重要。
➡️ 研究动机:现有的MLLMs在执行任务时,通常忽视了世界动态和行动与世界动态之间的关系,这限制了它们在真实世界中的应用。为了克服这一限制,研究团队提出了OccLLaMA,一个占用-语言-行动生成世界模型,旨在通过统一的多模态词汇和增强的自回归模型,实现对视觉、语言和行动模态的统一建模,从而提升自动驾驶系统的性能。
➡️ 方法简介:研究团队提出了OccLLaMA,该模型使用语义占用作为通用视觉表示,并通过自回归模型统一视觉-语言-行动模态。具体而言,团队引入了一种新颖的场景分词器,用于高效地离散化和重建语义占用场景,考虑了场景的稀疏性和类别不平衡问题。然后,通过结合场景词汇、语言词汇和行动词汇,构建了一个统一的多模态词汇,以支持多种自动驾驶任务。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括4D占用预测、运动规划和视觉问答任务。实验设计了不同的输入模态(如相机数据和占用数据)和监督条件,以全面评估OccLLaMA在不同任务中的性能。实验结果表明,OccLLaMA在多个任务中均表现出竞争力,特别是在长期预测和运动规划方面,显著优于现有方法。
mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding
➡️ 论文标题:mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding
➡️ 论文作者:Anwen Hu, Haiyang Xu, Liang Zhang, Jiabo Ye, Ming Yan, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou
➡️ 研究机构: Alibaba Group、Renmin University of China
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在无OCR的文档理解任务中取得了显著的进展,但这些模型在处理高分辨率文档图像时,生成的视觉标记数量过多,导致GPU内存占用过高和推理时间过长,尤其是在多页文档理解任务中。
➡️ 研究动机:为了减少高分辨率文档图像处理中的视觉标记数量,同时保持文档理解的性能,研究团队提出了一种新的压缩架构——高分辨率文档压缩器(High-resolution DocCompressor),并开发了mPLUG-DocOwl2模型。该模型旨在通过减少视觉标记数量来提高多页文档理解的效率和性能。
➡️ 方法简介:研究团队设计了一种布局感知的压缩架构,通过跨注意力机制(Cross-Attention)将高分辨率文档图像压缩成更少的视觉标记。该方法利用低分辨率全局视觉特征作为查询(query),高分辨率子图像的视觉特征作为键(key)和值(value),从而在保持布局信息的同时,有效地压缩视觉特征。
➡️ 实验设计:mPLUG-DocOwl2模型在多个单页和多页文档理解基准上进行了实验,包括DocVQA、InfoVQA、DeepForm等。实验结果表明,mPLUG-DocOwl2在减少视觉标记数量的同时,保持了与现有模型相当的文档理解性能,并显著提高了多页文档理解的效率。此外,研究团队还进行了充分的消融实验,验证了高分辨率文档压缩器和三阶段训练框架的有效性。
UI-JEPA: Towards Active Perception of User Intent through Onscreen User Activity
➡️ 论文标题:UI-JEPA: Towards Active Perception of User Intent through Onscreen User Activity
➡️ 论文作者:Yicheng Fu, Raviteja Anantha, Prabal Vashisht, Jianpeng Cheng, Etai Littwin
➡️ 研究机构: Stanford University, Apple
➡️ 问题背景:生成用户意图(User Intent)是从一系列用户界面(UI)动作中提取用户意图的核心挑战。尽管多模态大型语言模型(MLLMs)在这一领域取得了显著进展,但这些模型对大量参数、计算能力和高延迟的需求使其在需要轻量级、设备端解决方案的场景中不切实际。此外,缺乏高质量的数据集也阻碍了轻量级模型的发展。
➡️ 研究动机:现有的研究已经揭示了在理解UI方面,大型MLLMs虽然性能强大,但计算成本高、部署困难。为了克服这些挑战,研究团队提出了UI-JEPA框架,通过自监督学习(SSL)技术从无标签数据中学习抽象的UI嵌入,并结合一个轻量级的大型语言模型(LLM)解码器来预测用户意图。该框架旨在减少对标注数据和计算资源的需求,同时保持与大型MLLMs相当的性能。
➡️ 方法简介:UI-JEPA框架包括两个主要部分:一个基于JEPA的视频编码器和一个解码器。视频编码器通过自监督学习从无标签的UI视频数据中学习抽象的特征表示,而解码器则从这些特征表示中生成用户意图的文本描述。研究团队还提出了两种新的多模态数据集:“Intent in the Wild”(IIW)和“Intent in the Tame”(IIT),用于评估模型在少样本和零样本设置下的性能。
➡️ 实验设计:实验在两个新数据集IIW和IIT上进行,评估了不同模型在少样本和零样本设置下的性能。实验设计了不同的因素,如视频分辨率、模型参数量等,以全面评估模型的性能。结果显示,UI-JEPA在性能上与大型MLLMs相当,但计算成本和延迟显著降低。
Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver
➡️ 论文标题:Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver
➡️ 论文作者:Zeren Zhang, Jo-Ku Cheng, Jingyang Deng, Lu Tian, Jinwen Ma, Ziran Qin, Xiaokai Zhang, Na Zhu, Tuo Leng
➡️ 研究机构: 北京大学、01.AI、上海交通大学、上海大学
➡️ 问题背景:数学推理,尤其是几何问题的解决,对AI模型来说仍然是一个持续的挑战。大多数多模态大语言模型(MLLMs)在处理几何问题时表现不佳,因为它们的视觉编码器主要是在自然场景上预训练的,难以理解几何图。此外,缺乏有效的几何关系表示方法也加剧了这一问题。
➡️ 研究动机:现有的MLLMs在处理几何图时往往表现不如仅处理文本的LLMs,这主要是因为MLLMs难以正确解释几何图,导致提取的信息不准确或无关。为了解决这些问题,研究团队提出了一个新框架——图形式化增强几何问题求解器(DFE-GPS),旨在通过整合视觉特征、几何形式语言和自然语言表示,提高MLLMs处理几何图的能力。
➡️ 方法简介:研究团队提出了一种新的合成数据方法,构建了大规模几何数据集SynthGeo228K,该数据集包含形式语言和自然语言标注,旨在增强视觉编码器对几何结构的理解。DFE-GPS框架包括三个主要组件:图形式化器、投影模块和轻量级LLM。通过三个阶段的训练,模型能够校准图形式化器生成的形式化描述,并生成连贯的自然语言推理步骤来解决问题。
➡️ 实验设计:实验在formalgeo7k数据集上进行,评估了DFE-GPS在选择题和开放题模式下的表现。实验结果表明,DFE-GPS-34B模型在选择题模式下的准确率为82.38%,在开放题模式下的准确率为75.33%,过程评估得分为79.07,显著优于其他模型。此外,研究还通过消融实验验证了每个训练阶段的重要性,以及几何形式语言对模型性能的提升作用。
Question-Answering Dense Video Events
➡️ 论文标题:Question-Answering Dense Video Events
➡️ 论文作者:Hangyu Qin, Junbin Xiao, Angela Yao
➡️ 研究机构: National University of Singapore (NUS)
➡️ 问题背景:多模态大语言模型(MLLMs)在单事件视频的问题回答任务中表现出色。然而,现实世界中的视频往往较长且包含复杂的密集事件。这要求模型能够准确理解并推理多个事件,尤其是在长时间跨度内发生的事件。当前的MLLMs在处理单事件视频时表现出色,但在处理密集事件的长视频时表现不佳。
➡️ 研究动机:为了应对这一挑战,研究团队提出了一项新的任务——密集视频事件的问题回答(DeVE-QA),旨在评估MLLMs在理解和推理长视频中密集事件的能力。研究团队还构建了一个名为DeVE-QA的数据集,包含78,000个关于26,000个事件的10,600个长视频的问题,以促进这一领域的研究。
➡️ 方法简介:研究团队提出了一种无需训练的MLLM方法——DeVi,该方法通过三个专门的模块来实现密集视频事件的问答:1) 层次化的密集事件字幕生成,用于检测不同时间尺度上的密集事件;2) 事件时间记忆模块,用于捕捉长期事件依赖并上下文化事件;3) 自一致性检查模块,用于确保答案与事件时刻的一致性。
➡️ 实验设计:研究团队在DeVE-QA数据集上进行了实验,并扩展到NExT-GQA数据集。实验评估了不同模型在密集事件理解和问答任务中的表现,包括问答准确性(Acc@QA)、时间定位质量(IoP)和交并比(IoU)。实验结果表明,DeVi在DeVE-QA和NExT-GQA上的表现显著优于现有模型,分别提高了4.1%和3.7%的GQA准确性。