当前位置: 首页 > news >正文

多模态大语言模型arxiv论文略读(六十四)

请添加图片描述

Probing Multimodal LLMs as World Models for Driving

➡️ 论文标题:Probing Multimodal LLMs as World Models for Driving
➡️ 论文作者:Shiva Sreeram, Tsun-Hsuan Wang, Alaa Maalouf, Guy Rosman, Sertac Karaman, Daniela Rus
➡️ 研究机构: MIT CSAIL、TRI、MIT LIDS
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在理解图像和文本内容方面展现了卓越的能力。然而,这些模型在动态驾驶环境中的表现,尤其是在复杂驾驶场景中的场景理解能力,尚未得到充分探索。研究团队通过实验评估了多个MLLMs在动态驾驶场景中的表现,发现这些模型虽然在理解单个图像方面表现出色,但在合成连贯的动态场景叙述方面存在显著不足,尤其是在理解车辆运动、与其他道路参与者互动、轨迹规划和开放集场景推理等方面。
➡️ 研究动机:尽管MLLMs在多种任务中表现出色,但它们在动态驾驶环境中的应用仍面临挑战。研究团队旨在评估这些模型作为驾驶世界模型的能力,特别是在理解复杂动态环境和做出适当决策方面。通过引入新的数据集和模拟器,研究团队希望揭示MLLMs在动态驾驶场景中的局限性,并为未来模型的改进提供方向。
➡️ 方法简介:研究团队构建了EVAL-LLM-DRIVE数据集和DRIVESIM模拟器,以评估MLLMs在动态驾驶场景中的表现。数据集包括真实道路视频和模拟生成的场景,涵盖了多种驾驶环境和动态行为。实验设计了多个测试维度,包括车辆自身动态、与其他道路参与者的互动、轨迹规划和开放集场景推理。
➡️ 实验设计:实验在真实道路视频和模拟生成的场景中进行,测试了多个MLLMs在不同驾驶任务中的表现。实验设计了多个测试维度,包括车辆前进/后退、加速/减速、左转/右转、交通拥堵、障碍物避让等。通过这些测试,研究团队评估了模型在不同条件下的表现,特别是它们在动态驾驶场景中的理解和决策能力。

ChartInsights: Evaluating Multimodal Large Language Models for Low-Level Chart Question Answering

➡️ 论文标题:ChartInsights: Evaluating Multimodal Large Language Models for Low-Level Chart Question Answering
➡️ 论文作者:Yifan Wu, Lutao Yan, Leixian Shen, Yunhai Wang, Nan Tang, Yuyu Luo
➡️ 研究机构: The Hong Kong University of Science and Technology (Guangzhou), The Hong Kong University of Science and Technology, South China University of Technology, Renmin University of China
➡️ 问题背景:图表问答(ChartQA)任务在解释和提取图表中的数据洞察方面发挥着关键作用。尽管多模态大语言模型(MLLMs)如GPT-4o在高层次的ChartQA任务(如图表标题生成)中表现出色,但它们在低层次的ChartQA任务(如识别相关性)中的有效性尚未得到充分探索。
➡️ 研究动机:现有研究主要集中在高层次的ChartQA任务上,而忽略了人们在日常生活中频繁遇到的低层次ChartQA任务。为了填补这一空白,研究团队系统地评估了19个先进的MLLMs在低层次ChartQA任务中的表现,旨在为未来的模型优化和应用提供有价值的见解。
➡️ 方法简介:研究团队构建了一个名为ChartInsights的新数据集,包含22,347个(图表,任务,查询,答案)样本,涵盖了10种数据分析任务和7种图表类型。通过系统地评估19个MLLMs(包括12个开源模型和7个闭源模型)在这些任务中的表现,研究团队揭示了模型在处理低层次ChartQA任务时的能力和局限性。
➡️ 实验设计:实验设计了多个方面,包括基准测试、不同问题类型的影响、文本提示策略的优化、视觉提示的影响、图表变化的影响以及图像质量的影响。此外,研究团队还提出了一种新的文本提示策略——Chain-of-Charts,该策略通过一系列互连的问题-答案对来引导模型,显著提高了模型在低层次ChartQA任务中的表现。

MM-InstructEval: Zero-Shot Evaluation of (Multimodal) Large Language Models on Multimodal Reasoning Tasks

➡️ 论文标题:MM-InstructEval: Zero-Shot Evaluation of (Multimodal) Large Language Models on Multimodal Reasoning Tasks
➡️ 论文作者:Xiaocui Yang, Wenfang Wu, Shi Feng, Ming Wang, Daling Wang, Yang Li, Qi Sun, Yifei Zhang, Xiaoming Fu, Soujanya Poria
➡️ 研究机构: 东北大学、新加坡科技设计大学、哥廷根大学、南京理工大学
➡️ 问题背景:多模态大型语言模型(MLLMs)在多种多模态任务中表现出色,但当前的评估研究主要集中在模型在单一模态(视觉)任务中的理解和推理能力,忽略了在复杂多模态推理任务中(结合视觉和文本上下文)的关键性能评估。这些任务要求模型具备深入理解多模态上下文的能力,而不仅仅是传统的视觉-语言多模态能力。
➡️ 研究动机:为了填补这一研究空白,研究团队开发了一个全面的评估框架——MM-INSTRUCTEVAL,旨在对各种MLLMs在涉及视觉-文本上下文的多模态推理任务中的性能进行全面评估。该框架不仅评估了模型在不同数据集上的表现,还引入了新的指标来衡量模型与指令之间的适应性,为未来的研究和应用提供了宝贵的见解。
➡️ 方法简介:研究团队提出了一个系统的方法,通过构建MM-INSTRUCTEVAL框架,评估31个模型(包括23个MLLMs)在16个数据集上的表现,涵盖了6种不同的多模态推理任务。该框架包括多种评估指标,如“最佳性能”、“平均相对增益”、“稳定性”和“适应性”,以全面评估模型和指令的性能。
➡️ 实验设计:实验在16个数据集上进行,涵盖了6种多模态推理任务,包括视觉-文本上下文中的视觉问答(VQAMC)、多模态情感分析(MSA)、多模态关系抽取(MRE)等。实验设计了10种不同的指令,以评估模型在不同指令下的表现,从而揭示模型架构、指令格式和任务性能之间的关系。

FreeVA: Offline MLLM as Training-Free Video Assistant

➡️ 论文标题:FreeVA: Offline MLLM as Training-Free Video Assistant
➡️ 论文作者:Wenhao Wu
➡️ 研究机构: The University of Sydney
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在图像理解任务中表现出色,但视频理解领域的研究相对滞后。尽管有研究尝试通过视频指令调优(video instruction tuning)来提升视频MLLMs的性能,但这些方法的有效性仍存在争议。此外,现有的评估指标受到GPT API版本变化的影响,可能导致不公平的比较。
➡️ 研究动机:研究团队旨在探讨现有的图像MLLMs是否可以直接用于视频理解任务,而无需额外的视频调优。通过实证研究,团队希望揭示当前视频MLLMs是否真正超越了图像MLLMs,并为未来的研究提供一个简单有效的基线。
➡️ 方法简介:研究团队提出了一种名为FreeVA的方法,该方法通过简单的参数无时间聚合机制,将图像MLLMs扩展到视频领域。具体来说,每个视频帧经过图像MLLM的处理,生成的视觉令牌通过时间聚合后直接输入语言模型,从而实现零样本视频理解。
➡️ 实验设计:研究在MSVD-QA、ActivityNet-QA和MSRVTT-QA等公开数据集上进行了实验,评估了不同时间聚合方法(稀疏聚合和密集聚合)对视频问答任务的影响。实验还比较了不同大小的语言模型(Vicuna-7B和Vicuna-13B)的性能,并探讨了GPT-3.5 API版本变化对评估结果的影响。

Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots

➡️ 论文标题:Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots
➡️ 论文作者:Chengyue Wu, Yixiao Ge, Qiushan Guo, Jiahao Wang, Zhixuan Liang, Zeyu Lu, Ying Shan, Ping Luo
➡️ 研究机构: The University of Hong Kong, ARC Lab, Tencent PCG, Shanghai Jiao Tong University
➡️ 问题背景:多模态大语言模型(MLLMs)在视觉上下文中表现出色,但其将视觉图表转换为可执行代码的能力尚未得到充分评估。当前的评估基准主要集中在单一模态的任务上,缺乏对多模态输入和输出的全面评估,尤其是在处理文本密集型图像时。
➡️ 研究动机:为了填补这一空白,研究团队开发了Plot2Code,这是一个专门用于评估MLLMs在多模态代码生成任务中的表现的基准。Plot2Code旨在通过提供多样化的评估设置和自动评估指标,全面评估MLLMs在不同输入模态下的代码生成能力,特别是针对科学图表的生成。
➡️ 方法简介:研究团队构建了一个包含132个高质量matplotlib图表的数据集,这些图表涵盖了六种不同的图表类型。每个图表都配有相应的源代码和由GPT-4生成的详细说明。Plot2Code支持两种评估设置:直接提问(Direct Asking)和条件提问(Conditional Asking),并提出了三种自动评估指标:代码通过率、文本匹配率和GPT-4V总体评分。
➡️ 实验设计:研究团队在Plot2Code基准上评估了14个公开可用的MLLMs,包括专有的GPT-4V、Gemini-Pro和开源的Mini-Gemini等。实验设计了不同的输入模态(如文本、图像或两者的组合)和输出模态(如代码和图像),并使用上述评估指标对模型的性能进行了全面评估。实验结果表明,即使是最先进的模型在视觉编码任务中也存在显著的挑战,GPT-4V的总体评分为7.68/10,表明有较大的提升空间。

相关文章:

  • 美团二面:使用分布式调度框架该考虑哪些问题?
  • 【Java ee 初阶】文件IO和操作(下)
  • 【Java ee 初阶】文件操作和IO(上)
  • 企业级可观测性实现:OpenObserve云原生平台的本地化部署与远程访问解析
  • COLT_CMDB_linux_userInfo_20250508.sh修复历史脚本输出指标信息中userName与输出信息不一致问题
  • 解构语言模型推理过程,超越最终答案:通过分析子思考路径提升大语言模型推理准确性的方法研究
  • Python3正则表达式:字符串魔法师的指南[特殊字符]‍♂️
  • 《Scala基础》
  • flink超时未揽收单量统计
  • 华为首款鸿蒙电脑正式亮相,开启国产操作系统新篇章
  • 多线程初阶(2)
  • 长难句。。
  • Kafka消息队列之 【消费者分组】 详解
  • maven 安装 本地 jar
  • 紫禁城多语言海外投资理财返利源码带前端uniapp纯工程文件
  • 带你玩转 Flink TumblingWindow:从理论到代码的深度探索
  • DMC-1410/1411/1417USER MANUAL 手侧
  • 视频编解码学习8之视频历史
  • 艾体宝方案丨深度解析生成式 AI 安全风险,Lepide 为数据安全护航
  • 垃圾回收的三色标记算法
  • 融创中国:今年前4个月销售额约112亿元
  • 国铁集团:铁路五一假期运输收官,多项运输指标创历史新高
  • 上海乐高乐园度假区将于7月5日开园
  • 央行行长:未来还可以扩大结构性货币政策工具规模或创设新的政策工具
  • 吴清:全力支持中央汇金公司发挥好类“平准基金”作用
  • 41年轮回,从洛杉矶奔向洛杉矶,李宁故地重游再出发