当前位置: 首页 > news >正文

多模态大语言模型arxiv论文略读(113)

请添加图片描述

Grounded Multi-Hop VideoQA in Long-Form Egocentric Videos

➡️ 论文标题:Grounded Multi-Hop VideoQA in Long-Form Egocentric Videos
➡️ 论文作者:Qirui Chen, Shangzhe Di, Weidi Xie
➡️ 研究机构: Shanghai Jiao Tong University
➡️ 问题背景:当前的视频问答(VideoQA)系统在处理长形式的自拍视频时,面临多跳推理和时间定位的挑战。这些系统通常只能基于单一时间点的视觉线索回答问题,而无法处理需要跨多个时间间隔的信息整合和推理的任务。此外,现有的多模态大语言模型(MLLMs)在多跳推理和时间定位方面的能力也存在不足。
➡️ 研究动机:为了克服现有视频问答系统在多跳推理和时间定位上的局限,研究团队提出了多跳视频问答(MH-VidQA)任务,旨在要求模型不仅回答涉及多个时间间隔的视觉信息的问题,还要定位这些时间间隔作为证据。研究团队还构建了一个新的基准数据集MULTIHOP-EGOQA,以评估模型在这一任务上的表现。
➡️ 方法简介:研究团队开发了一种自动化管道,从Ego4D数据集的叙述中构建大规模的多跳问答对。通过构建动作场景图,研究团队能够分析动作、对象及其关系的时序进展,从而识别出需要多跳推理的问题。然后,利用大型语言模型(LLMs)生成包含六种不同类型问题的问答对,涵盖现实世界场景中的交互和长期时间关系。此外,研究团队提出了一种新的架构GeLM,通过在多模态大语言模型中引入接地令牌,增强了模型的多跳推理和时间定位能力。
➡️ 实验设计:研究团队在MULTIHOP-EGOQA基准数据集上进行了实验,评估了现有模型和GeLM在多跳推理和时间定位上的表现。实验结果表明,现有的多模态模型在多跳推理和时间定位方面表现不佳,而GeLM则显著提高了这些能力。此外,GeLM在另一个公开的单跳视频问答基准数据集ActivityNet-RTL上也取得了最先进的性能。

Leveraging Hallucinations to Reduce Manual Prompt Dependency in Promptable Segmentation

➡️ 论文标题:Leveraging Hallucinations to Reduce Manual Prompt Dependency in Promptable Segmentation
➡️ 论文作者:Jian Hu, Jiayi Lin, Junchi Yan, Shaogang Gong
➡️ 研究机构: Queen Mary University of London, Shanghai Jiao Tong University
➡️ 问题背景:当前的可提示分割方法(Promptable Segmentation)通常需要特定实例的手动提示来指导每个目标对象的分割,这极大地限制了其大规模应用。最近,一种无需手动提示的任务通用可提示分割方法被引入,该方法仅需一个任务通用提示即可对同一任务下的所有样本进行实例特定的分割,显著减少了标注工作量。然而,任务通用提示可能过于粗略和模糊,直接应用可能导致较差的分割效果。
➡️ 研究动机:为了解决任务通用提示的局限性,现有方法利用多模态大语言模型(MLLMs)从任务通用提示中推理出更详细、实例特定的提示,以提高分割精度。然而,MLLMs在推理过程中常产生幻觉,导致不准确的提示。尽管现有方法主要集中在消除幻觉以提高模型性能,但研究团队认为,如果正确利用,幻觉可以揭示有价值的上下文信息,这些信息代表了模型在大规模预训练中获得的先验知识。因此,本研究旨在探索如何利用幻觉来提取任务相关的信息,并通过迭代优化减少无关幻觉,从而提高分割精度。
➡️ 方法简介:研究团队提出了一种迭代的提示-掩码循环生成框架(ProMaC),该框架包括一个提示生成器和一个掩码生成器。提示生成器使用多尺度链式思考提示机制,通过利用幻觉来假设任务相关的信息,并通过视觉对比推理来验证和减少无关幻觉,从而生成更准确的实例特定提示。掩码生成器则使用掩码语义对齐技术,确保生成的掩码与任务语义一致,同时指导提示生成器在后续循环中进一步优化提示和掩码。
➡️ 实验设计:研究团队在5个不同的分割任务上进行了实验,涉及12个多样化的数据集,与22个现有模型进行了对比。实验设计了多个因素的变化,包括不同尺度和位置的图像分割、不同的提示类型等,以全面评估ProMaC的有效性。实验结果表明,ProMaC在多个任务上均表现出色,显著提高了分割精度。

Divide, Conquer and Combine: A Training-Free Framework for High-Resolution Image Perception in Multimodal Large Language Models

➡️ 论文标题:Divide, Conquer and Combine: A Training-Free Framework for High-Resolution Image Perception in Multimodal Large Language Models
➡️ 论文作者:Wenbin Wang, Liang Ding, Minyan Zeng, Xiabin Zhou, Li Shen, Yong Luo, Dacheng Tao
➡️ 研究机构: 武汉大学、悉尼大学、江苏大学、中山大学、南洋理工大学
➡️ 问题背景:多模态大语言模型(MLLMs)近年来取得了显著进展,但在有效识别和解释高分辨率(HR)图像的复杂细节方面仍面临挑战。尽管最先进的MLLMs声称能够处理4K分辨率的图像,但现有的MLLM基准测试仅支持最高2K分辨率,导致这些模型在真实HR图像上的能力尚未得到充分测试。此外,现有的增强HR图像感知的方法通常依赖于计算成本高昂的视觉指令调优。
➡️ 研究动机:为了应对当前缺乏高分辨率多模态基准测试的问题,研究团队引入了HR-Bench,这是首个专门设计的基准测试,用于严格评估MLLMs在4K和8K分辨率图像上的感知能力。通过广泛的实验,研究团队发现,将HR图像下采样到较低的固定分辨率会导致视觉信息的显著损失,增加模型输出的不确定性和错误率。然而,整合来自其他模态(如文本)的信息可以有效缓解这些负面影响。
➡️ 方法简介:研究团队提出了一种名为“Divide, Conquer and Combine (DC2)”的新型无训练框架,用于增强MLLMs对HR图像的感知能力。DC2采用三阶段方法:1) Divide:递归地将HR图像分割成小块,并合并相似的块以减少计算开销;2) Conquer:利用MLLM为每个图像块生成准确的文本描述;3) Combine:利用生成的文本描述来增强MLLM对整体HR图像的理解。
➡️ 实验设计:研究团队在HR-Bench 8K和HR-Bench 4K上进行了实验,评估了不同分辨率(1K、2K、4K和8K)对MLLMs性能的影响。实验结果表明,下采样HR图像会导致视觉信息的显著损失,增加模型输出的不确定性和错误率。通过引入丰富的文本描述,可以显著提高模型在HR-Bench 8K上的性能,甚至达到与保留关键图像区域相当的水平。实验还显示,DC2框架在HR-Bench和通用多模态基准测试中带来了显著的性能提升(最高可达+12.0%的准确率)。

A Survey on Evaluation of Multimodal Large Language Models

➡️ 论文标题:A Survey on Evaluation of Multimodal Large Language Models
➡️ 论文作者:Jiaxing Huang, Jingyi Zhang
➡️ 研究机构: Nanyang Technological University, Singapore
➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)通过整合强大的大型语言模型(LLMs)和多种模态编码器(如视觉、音频),模仿人类的感知和推理系统,赋予MLLMs人类般的多模态理解和推理能力。随着GPT-4V、Gemini等全能型MLLMs的出现,评估这些模型在不同维度上的能力变得尤为重要。本文系统地回顾了MLLMs的评估方法,涵盖了MLLMs的背景、评估内容、评估地点、评估方法等方面。
➡️ 研究动机:尽管MLLMs在多模态理解、感知、推理和特定领域应用(如社会经济、自然科学与工程、医疗应用等)方面表现出色,但它们在局部图像理解、细粒度视觉关系和互动理解等方面仍存在局限。此外,评估MLLMs的可信度、鲁棒性和安全性对于确保其在敏感应用中的可靠性和安全性至关重要。因此,本文旨在提供一个全面的MLLMs评估方法综述,以促进更强大和可靠的MLLMs的发展。
➡️ 方法简介:本文提出了一种系统的方法,通过构建MLLMs评估的分类体系,全面回顾了现有的评估方法。该分类体系基于评估的模型能力(如多模态理解、可信度等)和目标应用(如社会经济、自然科学与工程、医疗应用等)进行分类。此外,本文还详细讨论了MLLMs的训练策略,包括对齐预训练、多模态指令调优和对齐人类偏好等。
➡️ 实验设计:本文在多个公开数据集上进行了实验,涵盖了多模态理解(如概念识别、属性识别、动作识别、光学字符识别等)、多模态感知(如对象定位、对象关系、对象互动等)、多模态推理(如常识推理、关系推理、逻辑推理等)以及特定任务(如社会经济分析、自然科学研究、医疗应用等)。实验设计了不同的评估指标和方法,以全面评估MLLMs在不同任务中的表现。

LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation

➡️ 论文标题:LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation
➡️ 论文作者:Fangxun Shu, Yue Liao, Le Zhuo, Chenning Xu, Lei Zhang, Guanghao Zhang, Haonan Shi, Long Chen, Tao Zhong, Wanggui He, Siming Fu, Haoyuan Li, Bolin Li, Zhelun Yu, Si Liu, Hongsheng Li, Hao Jiang
➡️ 研究机构: 阿里巴巴、香港中文大学、浙江大学、香港感知与交互智能中心、北京航空航天大学
➡️ 问题背景:多模态大型语言模型(MLLM)在多模态任务中展现了显著的成果,但其庞大的模型规模和广泛的训练数据带来了显著的计算挑战。例如,最大的LLaVA-NeXT版本使用Qwen-1.5-110B,并在128个H800 GPU上训练18小时。此外,大量的参数需要高级硬件支持,导致推理速度慢,难以在移动设备等实际场景中部署。因此,探索一种平衡性能和效率的小规模MLLM(s-MLLM)成为关键问题。
➡️ 研究动机:现有的s-MLLM研究主要集中在高质量数据的收集和过滤协议上,但这些方法受限于模型容量。知识蒸馏(KD)从大规模MLLM(l-MLLM)中提取知识,为提升s-MLLM性能提供了一种有前景但尚未充分探索的策略。通过将小模型的输出分布与大模型对齐,KD使s-MLLM能够利用l-MLLM中嵌入的丰富知识。研究团队提出了LLaVA-MoD框架,通过混合专家(MoE)和知识蒸馏技术,解决s-MLLM设计和知识转移的两大挑战。
➡️ 方法简介:研究团队提出了LLaVA-MoD框架,该框架包括两个主要部分:(1)s-MLLM的架构设计,通过引入MoE结构,平衡模型规模的减少和保持捕捉复杂多模态知识的能力;(2)渐进式知识蒸馏机制,包括模仿蒸馏和偏好蒸馏两个阶段,以全面转移l-MLLM的知识到s-MLLM。
➡️ 实验设计:实验在多个公开数据集上进行,包括多模态理解(MME)、多模态基准(MMB)和中文多模态基准(MMBCN)。实验设计了不同的训练阶段,每个阶段使用不同的数据集,包括初始化阶段的通用图像-字幕对、模仿蒸馏阶段的通用图像-字幕和对话数据、以及偏好蒸馏阶段的偏好数据。实验结果表明,LLaVA-MoD在多个基准测试中表现出色,使用极低的训练数据和参数量,显著超越了现有的小规模MLLM。

相关文章:

  • web vue 项目 Docker化部署
  • QT3D学习笔记——圆台、圆锥
  • 本地化部署 Dify 打造专属 AI 助手并嵌入网站
  • 门静脉高压——表现
  • 2021-03-15 iview一些问题
  • 在 Spring Boot 项目里,MYSQL中json类型字段使用
  • 开发认知提升
  • Kubernetes ClusterIP 端口深度解析:虚拟服务与流量转发机制
  • pocketflow库实现guardrail
  • 恶补电源:1.电桥
  • 【K8S】Kubernetes从入门到实战:全面指南
  • 微机原理与接口技术,期末冲刺复习资料(四)
  • EU 2023/1669与EU 2023/1670 的区别
  • 浅谈二叉堆实现的优先队列
  • c++第七天--继承与派生
  • 【把数组变成一棵树】有序数组秒变平衡BST,原来可以这么优雅!
  • 鸢尾花分类(KNN)
  • 【数据结构】图论最短路径算法深度解析:从BFS基础到全算法综述​
  • 数据结构 - 栈与队列
  • LangChain + LangSmith + DeepSeek 入门实战:构建代码生成助手
  • 德州建设网站有/seo实战指导
  • 外包+网站开发公司/app下载量推广
  • 沧州网站建设开发服务/百度指数如何提升
  • 网站开发的推荐/怎么样引流加微信
  • 网站代理商/站长工具忘忧草
  • 网站和网页的目的/网站优化培训学校