当前位置: 首页 > news >正文

多模态大语言模型arxiv论文略读(119)

在这里插入图片描述

ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models

➡️ 论文标题:ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models
➡️ 论文作者:Yahan Tu, Rui Hu, Jitao Sang
➡️ 研究机构: 北京交通大学 (Beijing Jiaotong University)
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在图像描述和视觉问答等任务中取得了显著进展,但这些模型面临一个持续的挑战——“幻觉”(hallucination),即生成的响应看似合理但实际上与图像内容不符。这一问题可能导致有害后果,限制了MLLMs的实用性和可靠性。现有的幻觉评估基准多为静态,使用固定的数据集,这可能增加数据污染的风险,导致性能评估不准确。
➡️ 研究动机:为了提高模型的可靠性和实际应用,研究团队提出了一种开放集、动态的评估协议——ODE(Open-Set Dynamic Evaluation),旨在评估MLLMs在对象存在和属性层面的幻觉。ODE通过图结构表示现实世界对象概念、属性及其分布关联,生成多样化的样本,以减少数据污染并扩大评估范围。
➡️ 方法简介:研究团队设计了ODE协议,该协议自动生成数据集,用于评估MLLMs中的对象幻觉。首先,通过图结构建模现实世界对象概念、属性及其组合,然后从图中提取概念节点及其属性,设计多样化的语义场景和查询,生成高质量的图像。为了选择概念节点对,设计了四种基于频率的标准:标准、长尾、随机和虚构。这些标准反映了对象组合频率的不同分布模式。
➡️ 实验设计:研究团队在多个MLLMs上进行了广泛的评估,包括MiniGPT-4、InstructBLIP、LLaVA-1.5、CogVLM和mPLUG Owl。实验设计了不同分布标准(如标准、长尾、随机和虚构)的变化,以及不同任务(生成任务和判别任务)的评估。实验结果表明,使用ODE生成的样本评估的幻觉率比现有静态基准更高,揭示了潜在的数据污染问题。进一步的分析显示,不同的概念组合会导致不同的幻觉倾向。此外,使用ODE生成的样本进行针对性的微调可以有效减少幻觉。
➡️ 主要贡献:

  • 提出了一种开放集动态评估协议(ODE),通过动态目标概念组合生成新颖样本,减少数据污染。
  • 在多个模型上进行了广泛的幻觉评估,验证了ODE协议的有效性。
  • 生成的评估数据有助于模型调试,针对性的微调可以有效提升模型性能。

Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM

➡️ 论文标题:Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM
➡️ 论文作者:Yuanjie Lyu, Tong Xu, Zihan Niu, Bo Peng, Jing Ke, Enhong Chen
➡️ 研究机构: 中国科学技术大学
➡️ 问题背景:随着社交媒体平台的繁荣,用户对语义丰富的服务(如事件和故事线归因)的需求日益增长。然而,现有的研究大多集中在片段级别的事件理解,主要通过基本的字幕任务,而缺乏对整个电影中事件原因的分析。这是一项重大挑战,即使对于先进的多模态大语言模型(MLLMs)来说,由于上下文长度的限制,也难以整合多模态信息并解释长视频中的语义关系。
➡️ 研究动机:为了理解每个事件背后的原因,从整个电影的角度出发,研究团队提出了一种两阶段前缀增强的多模态大语言模型(TSPE)方法,旨在提高现有MLLMs在局部理解和全局分析两个阶段的性能。
➡️ 方法简介:TSPE方法包括两个阶段:局部阶段和全局阶段。在局部阶段,通过引入交互感知前缀,引导模型关注单个片段内的相关多模态信息,简要总结单个事件。在全局阶段,通过引入事件感知前缀,增强模型对相关前序事件的关注,从而准确地进行事件归因。
➡️ 实验设计:研究团队在两个真实世界的数据集上进行了实验,包括MovieGraph数据集和自建的CHAR数据集。实验设计了多种评估指标,验证了模型在事件归因任务上的有效性和优越性。实验结果表明,TSPE方法在多个指标上均优于现有的最先进方法。

AutoJournaling: A Context-Aware Journaling System Leveraging MLLMs on Smartphone Screenshots

➡️ 论文标题:AutoJournaling: A Context-Aware Journaling System Leveraging MLLMs on Smartphone Screenshots
➡️ 论文作者:Tianyi Zhang, Shiquan Zhang, Le Fang, Hong Jia, Vassilis Kostakos, Simon D’Alfonso
➡️ 研究机构: University of Melbourne
➡️ 问题背景:尽管日记记录对个人反思、写作技能提升和情绪监测有显著益处,但传统日记记录耗时且容易遗漏重要事件。智能手机作为最常用的娱乐、工作和社交设备,为创新日记记录方法提供了理想平台。然而,利用数字表型(Digital Phenotyping)——一种从数字设备无干扰地收集数据以洞察心理和行为模式的方法——自动生成日记的潜力尚未得到充分探索。
➡️ 研究动机:为了克服传统日记记录的局限,研究团队提出了AutoJournaling,这是一个利用多模态大型语言模型(MLLMs)和智能手机屏幕截图自动生成日记的系统。该系统通过捕捉生活事件及其相应的情绪,提供了一种新的数字表型方法。研究旨在验证AutoJournaling的可行性,并评估其在心理状态监测和预测方面的潜力。
➡️ 方法简介:AutoJournaling框架通过调整间隔收集智能手机屏幕截图,使用两种方法生成日记:基于单个屏幕截图的文本生成和基于连续屏幕截图的视频生成。系统首先对屏幕截图进行预处理,去除重复和无效图像,然后使用MLLMs生成日记条目。为了评估系统的性能,研究团队从三名大学生的智能手机上每三秒收集一次屏幕截图,持续五天,并使用AutoJournaling生成每日日记。
➡️ 实验设计:实验设计包括两个主要部分:基于文本的屏幕截图处理和基于视频的屏幕截图处理。在基于文本的处理中,屏幕截图被分组处理,生成详细的活动描述和日记总结。在基于视频的处理中,屏幕截图被转换为视频,然后生成日记条目。系统性能通过与人工生成的日记进行比较来评估,使用BERT模型计算事件描述和情绪推测的相似度分数。

Explore the Hallucination on Low-level Perception for MLLMs

➡️ 论文标题:Explore the Hallucination on Low-level Perception for MLLMs
➡️ 论文作者:Yinan Sun, Zicheng Zhang, Haoning Wu, Xiaohong Liu, Weisi Lin, Guangtao Zhai, Xiongkuo Min
➡️ 研究机构: 上海交通大学、南洋理工大学
➡️ 问题背景:多模态大语言模型(MLLMs)在视觉感知和理解方面展现了显著的能力,但这些模型也存在幻觉问题,这限制了它们作为AI系统的可靠性,尤其是在涉及低级视觉感知和理解的任务中。研究团队认为,幻觉问题源于这些模型缺乏明确的自我意识,这直接影响了它们的整体性能。
➡️ 研究动机:为了定义和评估MLLMs在低级视觉感知和理解任务中的自我意识能力,研究团队提出了QL-Bench基准测试,通过构建LLSAVisionQA数据集来模拟人类对低级视觉的反应,探讨MLLMs在低级视觉感知中的自我意识。研究旨在为未来的安全防护提供有价值的见解和方法。
➡️ 方法简介:研究团队构建了LLSAVisionQA数据集,包含2,990张单张图像和1,999对图像,每张图像或图像对都附有一个关于其低级特征的开放式问题。通过评估15个MLLMs,研究展示了这些模型在低级视觉任务中的表现,尽管某些模型表现出强大的低级视觉能力,但它们的自我意识仍相对不发达。
➡️ 实验设计:实验在单张图像任务和图像对任务中进行了评估,设计了不同类型的问题(如“是或否”问题、“什么”问题和“如何”问题),以全面评估模型在不同条件下的表现。实验结果表明,大多数模型在处理多图像任务时表现出更强的自我意识,但在单图像任务中的准确性有所下降。此外,模型在处理简单问题时的自我意识较弱,但在处理复杂问题时自我意识较强。

Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models

➡️ 论文标题:Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models
➡️ 论文作者:Weihao Ye, Qiong Wu, Wenhao Lin, Yiyi Zhou
➡️ 研究机构: Xiamen University
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉和语言任务中表现出色,但其计算成本高昂,尤其是在处理大量图像令牌时。研究发现,MLLMs中的图像令牌存在明显的冗余,这不仅增加了计算负担,还影响了模型的效率。
➡️ 研究动机:尽管现有的多模态模型在视觉和语言任务中取得了显著进展,但它们在计算效率方面仍面临挑战。为了提高MLLMs的计算效率,研究团队提出了一种快速且无需训练的视觉令牌修剪方法,旨在减少计算复杂度,同时保持模型性能。
➡️ 方法简介:研究团队提出了一种名为FitPrune的新方法,该方法通过最小化修剪前后注意力分布的差异来确定最优的修剪策略。FitPrune利用小批量推理数据的注意力统计信息,快速生成修剪方案,避免了昂贵的试验过程。具体而言,FitPrune同时考虑了自注意力和交叉注意力的分布,以确保修剪后的模型性能影响最小。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括视觉问答(VQAv2)、组合推理(GQA)、零样本泛化(VizWiz)、科学问答(ScienceQA-IMG)和图像中的文本理解(TextVQA)。实验设计了不同修剪比例(如40%和60%)的设置,以评估模型在不同条件下的性能变化。实验结果表明,FitPrune不仅显著减少了计算复杂度,还保持了较高的模型性能。例如,对于LLaVA-NEXT,FitPrune可以在仅0.5%性能下降的情况下减少54.9%的TFLOPs。

相关文章:

  • 燃气从业人员资格证书:职业发展的 “助推器”
  • Java八股文——MySQL「存储引擎篇」
  • SX1268低功耗sub-1g芯片支持lora和GFSK调制
  • 25年春招:米哈游运维开发一面总结
  • Vue3学习(6)-Vue3的生命周期和自定义hook
  • 力扣hot100-lc34在排序数组中查找元素的第一个和最后一个位置/lc153寻找旋转排序数组中的最小值/lc33搜索旋转排序数组
  • 3D打印入门
  • 使用 PyTorch 和 SwanLab 实时可视化模型训练
  • 京津冀城市群13城市空间权重0-1矩阵
  • 亚矩阵云手机针对AdMob广告平台怎么进行多账号的广告风控
  • imgui绘制图像(c++)
  • 《单光子成像》第二章 预习2025.6.12
  • 如何在SOLIDWORKS工程图中添加材料明细表?
  • linux共享内存解析
  • ArkUI-X构建Android平台AAR及使用
  • 复现论文报错解决
  • 基于mapreduce的气候分析系统
  • QCoreApplication QApplication
  • vue2项目开发中遇到的小问题
  • vue3集成高德地图绘制轨迹地图
  • 衢州做网站公司/运营商推广5g技术
  • 山东建设网站首页/自动点击器安卓
  • 网站想上线怎么做/百度关键词批量看排名工具
  • 重庆做网站推广/中国互联网数据平台
  • 中山做百度网站的公司/1688黄页大全进口
  • 长沙哪些公司做网站/网站搜什么关键词好