AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2025.04.10-2025.04.15
文章目录~
- 1.Co-STAR: Collaborative Curriculum Self-Training with Adaptive Regularization for Source-Free Video Domain Adaptation
- 2.Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception
- 3.From Gaze to Insight: Bridging Human Visual Attention and Vision Language Model Explanation for Weakly-Supervised Medical Image Segmentation
- 4.Seedream 3.0 Technical Report
- 5.Consensus Entropy: Harnessing Multi-VLM Agreement for Self-Verifying and Self-Improving OCR
- 6.LVLM_CSP: Accelerating Large Vision Language Models via Clustering, Scattering, and Pruning for Reasoning Segmentation
- 7.OmniVDiff: Omni Controllable Video Diffusion for Generation and Understanding
- 8.ReasonDrive: Efficient Visual Question Answering for Autonomous Vehicles with Reasoning-Enhanced Small Vision-Language Models
- 9.MMKB-RAG: A Multi-Modal Knowledge-Based Retrieval-Augmented Generation Framework
- 10.VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents
- 11.AerOSeg: Harnessing SAM for Open-Vocabulary Segmentation in Remote Sensing Images
- 12.Ego4o: Egocentric Human Motion Capture and Understanding from Multi-Modal Input
- 13.FocalLens: Instruction Tuning Enables Zero-Shot Conditional Image Representations
- 14.VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering
1.Co-STAR: Collaborative Curriculum Self-Training with Adaptive Regularization for Source-Free Video Domain Adaptation
标题:Co-STAR:利用自适应正则化进行协作式课程自我训练,实现无源视频领域自适应
author:Amirhossein Dadashzadeh, Parsa Esmati, Majid Mirmehdi
date Time:2025-04-15
paper pdf:http://arxiv.org/pdf/2504.11669v1
摘要:
无源无监督视频领域适配(SFUVDA)技术的最新进展是利用视觉语言模型来增强伪标签的生成。然而,噪声伪标签和过于自信的预测等挑战限制了它们在跨领域适应方面的有效性。我们提出的 Co-STAR 是一个新颖的框架,它将课程学习与源代码训练教师和对比视觉语言模型(CLIP)之间的协作式自我训练整合在一起。我们的课程学习方法采用了一种基于可靠性的权重函数,用于衡量教师和对比视觉语言模型之间的双向预测一致性,平衡有把握的预测和不确定的预测。该函数保留了困难样本的不确定性,同时当两个模型的预测结果紧密一致时,优先考虑可靠的伪标签。为了进一步改进适应性,我们提出了自适应课程正则化(Adaptive Curriculum Regularization),它根据样本的置信度得分和预测稳定性,以概率自适应的方式修改样本的学习优先级,从而减轻对噪声样本和过度置信样本的过度适应。多个视频领域适应基准的广泛实验表明,Co-STAR 的性能始终优于最先进的 SFUVDA 方法。代码见:https://github.com/Plrbear/Co-Star
2.Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception
标题:将生成式去噪与判别式目标相结合,释放视觉感知的扩散效应
author:Ziqi Pang, Xin Xu, Yu-Xiong Wang
publish:ICLR 2025
date Time:2025-04-15
paper pdf:http://arxiv.org/pdf/2504.11457v1
摘要:
随着图像生成技术的成功,生成式扩散模型越来越多地被用于判别任务,因为像素生成提供了一个统一的感知界面。然而,将生成式去噪过程直接用于判别目标,会发现以前很少涉及的关键差距。如果最终分布仍然可信,生成模型可以容忍中间采样误差,但判别任务则要求在整个过程中保持严格的准确性,这一点在具有挑战性的多模态任务(如参考图像分割)中得到了证明。在这一差距的激励下,我们分析并加强了生成扩散过程与感知任务之间的一致性,重点关注去噪过程中感知质量如何演变。我们发现(1)早期去噪步骤对感知质量的贡献不成比例,这促使我们提出量身定制的学习目标,以反映不同时间步骤的贡献;(2)后期去噪步骤显示出意想不到的感知退化,突出了对训练-去噪分布变化的敏感性,我们的扩散定制数据增强技术解决了这一问题;以及(3)生成过程具有独特的交互性,可作为可控的用户界面,适应多轮交互中的修正提示。我们的见解极大地改进了基于扩散的感知模型,无需改变架构,就能在深度估算、参考图像分割和通用感知任务上实现最先进的性能。代码见 https://github.com/ziqipang/ADDP。
3.From Gaze to Insight: Bridging Human Visual Attention and Vision Language Model Explanation for Weakly-Supervised Medical Image Segmentation
标题:从凝视到洞察:连接人类视觉注意力和视觉语言模型解释,实现弱监督医学图像分割
author:Jingkun Chen, Haoran Duan, Xiao Zhang, Boyan Gao, Tao Tan, Vicente Grau, Jungong Han
publish:10 pages, 5 figures
date Time:2025-04-15
paper pdf:http://arxiv.org/pdf/2504.11368v1
摘要:
由于像素级注释的训练成本较高,医学影像分割仍然具有挑战性。在弱监督的情况下,临床医生的注视数据可捕捉诊断兴趣区域;然而,其稀疏性限制了其在分割中的应用。相比之下,视觉语言模型(VLM)通过文字描述提供语义背景,但缺乏所需的解释精度。我们认识到仅靠这两种来源都不够,因此提出了一个师生框架,将注视和语言监督整合在一起,利用它们的互补优势。我们的主要见解是,凝视数据能指出临床医生在诊断过程中的重点,而 VLM 则能解释这些区域为何重要。为了实现这一点,教师模型首先从由 VLM 生成的病变形态描述所增强的注视点中学习,为指导学生模型奠定基础。然后,教师通过三种策略指导学生:(1) 多尺度特征对齐,将视觉线索与文本语义融合;(2) 置信度加权一致性约束,专注于可靠的预测;(3) 自适应屏蔽,限制不确定区域的错误传播。在 Kvasir-SEG、NCI-ISBI 和 ISIC 数据集上的实验表明,我们的方法获得的 Dice 分数分别为 80.78%、80.53% 和 84.22%–比注视基线提高了 3-5%,而且没有增加注释负担。通过保留预测、凝视数据和病变描述之间的相关性,我们的框架还保持了临床可解释性。这项工作说明了将人类视觉注意力与人工智能生成的语义上下文相结合如何有效克服单个弱监督信号的局限性,从而推动可部署、注释效率高的医疗人工智能系统的发展。代码见:https://github.com/jingkunchen/FGI.git。
4.Seedream 3.0 Technical Report
标题:种子流 3.0 技术报告
author:Yu Gao, Lixue Gong, Qiushan Guo, Xiaoxia Hou, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xuanda Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang
publish:Seedream 3.0 Technical Report
date Time:2025-04-15
paper pdf:http://arxiv.org/pdf/2504.11346v2
摘要:
我们介绍了高性能中英文双语图像生成基础模型 Seedream 3.0。我们在技术上进行了多项改进,以解决 Seedream 2.0 中存在的难题,包括与复杂提示的对齐、细粒度排版生成、次优视觉美感和保真度以及有限的图像分辨率。具体来说,Seedream 3.0 的进步源于从数据构建到模型部署的整个流程的改进。在数据层,我们采用缺陷感知训练范式和双轴协作数据采样框架,将数据集扩大了一倍。此外,在预训练阶段,我们还采用了混合分辨率训练、跨模态 RoPE、表示对齐损失和分辨率感知时间步采样等有效技术。在后训练阶段,我们利用 SFT 中的多样化审美字幕和基于 VLM 的缩放奖励模型,从而实现了与人类偏好完全一致的输出。此外,Seedream 3.0 还开创了一种新的加速模式。通过采用一致的噪声预期和重要性感知时间步采样,我们在保持图像质量的同时实现了 4 到 8 倍的速度提升。与 Seedream 2.0 相比,Seedream 3.0 有了显著的改进:它增强了整体功能,尤其是复杂汉字的文字渲染功能,这对专业排版生成非常重要。此外,它还提供了原生高分辨率输出(高达 2K),使其能够生成具有高视觉质量的图像。
5.Consensus Entropy: Harnessing Multi-VLM Agreement for Self-Verifying and Self-Improving OCR
标题:共识熵:利用多 VLM 协议实现自我验证和自我改进 OCR
author:Yulong Zhang, Tianyi Liang, Xinyue Huang, Erfei Cui, Xu Guo, Pei Chu, Chenhui Li, Ru Zhang, Wenhai Wang, Gongshen Liu
date Time:2025-04-15
paper pdf:http://arxiv.org/pdf/2504.11101v2
摘要:
光学字符识别(OCR)任务对于评估视觉语言模型(VLM)和为 LLM 训练数据提供高质量数据源非常重要。虽然最先进的视觉语言模型(VLM)的平均 OCR 识别准确率有所提高,但它们仍在样本级质量退化问题上挣扎,并且缺乏对低质量输出的可靠自动检测。我们引入了共识熵(Consensus Entropy,CE),这是一种无需训练的后推理方法,通过聚合多个 VLM 的输出来量化 OCR 的不确定性。我们的方法利用了一个关键见解:正确的 VLM OCR 预测会在输出空间中收敛,而错误则会发散。我们开发的轻量级多模型框架能有效识别有问题的样本、选择最佳输出并结合模型优势。多个 OCR 基准和 VLM 的实验表明,CE 在相同成本下优于 VLM 即判断方法和单一模型基线,并在多个指标上取得了最先进的结果。例如,我们的解决方案表明:在质量验证方面,F1 分数比 VLM 即判断方法高出 15.2%;在数学计算任务方面,准确率提高了 6.0%;在保持整体性能的同时,只需对 7.3% 的输入进行重新措辞。值得注意的是,整个过程既不需要培训,也不需要监督,始终保持即插即用的功能。
6.LVLM_CSP: Accelerating Large Vision Language Models via Clustering, Scattering, and Pruning for Reasoning Segmentation
标题:LVLM_CSP:通过聚类、分散和剪枝加速大型视觉语言模型的推理分割
author:Hanning Chen, Yang Ni, Wenjun Huang, Hyunwoo Oh, Yezi Liu, Tamoghno Das, Mohsen Imani
date Time:2025-04-15
paper pdf:http://arxiv.org/pdf/2504.10854v1
摘要:
大型视觉语言模型(LVLM)已被广泛用于指导视觉基础模型执行推理分割任务,并取得了令人瞩目的性能。然而,与 LVLM 相关的大量计算开销带来了新的挑战。计算成本的主要来源是处理数以百计的图像标记。因此,减少这种开销的有效策略是减少图像标记的数量,这一过程被称为图像标记剪枝。以往针对 LVLM 的图像标记修剪研究主要集中在高级视觉理解任务上,如视觉问题解答和图像字幕。相比之下,引导视觉基础模型根据文本查询生成准确的视觉遮罩需要精确的语义和空间推理能力。因此,剪枝方法必须在整个 LVLM 推理过程中仔细控制单个图像标记。我们的实证分析表明,现有的方法难以在减少计算开销和保持高分割准确性之间取得适当平衡。在这项工作中,我们提出了 LVLM_CSP,这是一种新颖的免训练视觉标记剪枝方法,专为基于 LVLM 的推理分割任务而设计。LVLM_CSP 包括三个阶段:聚类、分散和剪枝。最初,LVLM 使用选定的图像标记子集执行粗粒度视觉推理。接下来进行细粒度推理,最后在最后一个阶段剪除大部分视觉标记。大量实验证明,LVLM_CSP 可将图像标记推理 FLOPs 减少 65%,而准确率几乎没有下降;在 7B LVLM 上,推理 FLOPs 减少了 70%,而准确率仅略微下降了 1%。
7.OmniVDiff: Omni Controllable Video Diffusion for Generation and Understanding
标题:OmniVDiff:用于生成和理解的全方位可控视频扩散
author:Dianbing Xi, Jiepeng Wang, Yuanzhi Liang, Xi Qiu, Yuchi Huo, Rui Wang, Chi Zhang, Xuelong Li
publish:Our project page: https://tele-ai.github.io/OmniVDiff/
date Time:2025-04-15
paper pdf:http://arxiv.org/pdf/2504.10825v1
摘要:
在本文中,我们提出了一种新颖的可控视频扩散框架 OmniVDiff,旨在用单一扩散模型综合和理解多种视频视觉内容。为实现这一目标,OmniVDiff 在色彩空间中处理所有视频视觉模态,以学习联合分布,同时采用自适应控制策略,在扩散过程中动态调整每种视觉模态的角色,既可以是生成模态,也可以是调节模态。这样就能灵活操纵每种模式的作用,从而支持多种任务。因此,我们的模型支持三种关键功能:(1) 以文本为条件生成视频:在一个扩散过程中根据文本条件生成多模态视觉视频序列(即 RGB、深度、canny、segmentaion);(2) 视频理解:OmniVDiff 可以估计输入 rgb 帧的深度、canny 地图和语义分割,同时确保与 rgb 输入的一致性;(3) X 条件视频生成:OmniVDiff 以细粒度属性(如深度图或分割图)为条件生成视频。通过将这些不同的任务整合到统一的视频扩散框架中,OmniVDiff 增强了可控视频扩散的灵活性和可扩展性,使其成为视频到视频翻译等各种下游应用的有效工具。广泛的实验证明了我们方法的有效性,凸显了它在各种视频相关应用中的潜力。
8.ReasonDrive: Efficient Visual Question Answering for Autonomous Vehicles with Reasoning-Enhanced Small Vision-Language Models
标题:ReasonDrive:利用推理增强型小型视觉语言模型为自动驾驶汽车提供高效视觉问题解答
author:Amirhosein Chahe, Lifeng Zhou
date Time:2025-04-14
paper pdf:http://arxiv.org/pdf/2504.10757v1
摘要:
视觉语言模型(VLM)在自动驾驶方面大有可为,但往往缺乏对安全至关重要的透明推理能力。我们研究了在微调过程中明确建立推理模型是否能提高 VLM 在驾驶决策任务中的性能。我们使用 GPT-4o,针对 DriveLM 基准中的驾驶场景生成结构化推理链,并采用特定类别的提示策略。我们在多个小型 VLM 系列(Llama 3.2、Llava 1.5 和 Qwen 2.5VL)中比较了基于推理的微调、纯答案微调和基准指令微调模型。我们的结果表明,基于推理的微调始终优于其他方法,其中 Llama3.2-11B-reason 的性能最高。通过推理微调的模型在准确性和文本生成质量方面都有大幅提高,这表明显式推理增强了驱动决策的内部表征。这些发现凸显了透明决策过程在安全关键领域的重要性,并为开发可解释性更强的自动驾驶系统提供了一个前景广阔的方向。
9.MMKB-RAG: A Multi-Modal Knowledge-Based Retrieval-Augmented Generation Framework
标题:MMKB-RAG:基于知识的多模式检索–增强生成框架
author:Zihan Ling, Zhiyao Guo, Yixuan Huang, Yi An, Shuai Xiao, Jinsong Lan, Xiaoyong Zhu, Bo Zheng
date Time:2025-04-14
paper pdf:http://arxiv.org/pdf/2504.10074v3
摘要:
最近,大型语言模型(LLM)和多模态 LLM 取得了显著进步。然而,这些模型仍然完全依赖于其参数知识,这限制了它们生成最新信息的能力,并增加了生成错误内容的风险。检索增强生成(RAG)通过结合外部数据源部分地缓解了这些挑战,但对数据库和检索系统的依赖可能会引入不相关或不准确的文档,最终影响性能和推理质量。在本文中,我们提出了基于知识的多模态检索-增强生成(MMKB-RAG),这是一种新颖的多模态 RAG 框架,它利用模型固有的知识边界为检索过程动态生成语义标签。这种策略可以对检索到的文档进行联合过滤,只保留最相关、最准确的参考资料。在基于知识的视觉问题解答任务上进行的大量实验证明了我们方法的功效:在 E-VQA 数据集上,我们的方法在单跳子集上提高了 +4.2%,在整个数据集上提高了 +0.4%,而在 InfoSeek 数据集上,我们的方法在 Unseen-Q 子集上提高了 +7.8%,在 Unseen-E 子集上提高了 +8.2%,在整个数据集上提高了 +8.1%。这些结果表明,与当前最先进的 MLLM 和 RAG 框架相比,其准确性和鲁棒性都有了显著提高。
10.VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents
标题:VDocRAG:在视觉丰富的文档上进行检索增强生成
author:Ryota Tanaka, Taichi Iki, Taku Hasegawa, Kyosuke Nishida, Kuniko Saito, Jun Suzuki
publish:Accepted by CVPR 2025; project page: https://vdocrag.github.io
date Time:2025-04-14
paper pdf:http://arxiv.org/pdf/2504.09795v1
摘要:
我们的目标是开发一个检索增强生成(RAG)框架,该框架可以回答以混合模式(如图表、表格)和不同格式(如 PDF、PPTX)呈现的视觉丰富的文档语料库中的问题。在本文中,我们介绍了一种新的 RAG 框架 VDocRAG,它能以统一的图像格式直接理解不同的文档和模式,防止通过解析文档获取文本而出现的信息缺失。为了提高性能,我们提出了新颖的自监督预训练任务,通过将视觉信息压缩为密集的标记表征,同时将其与文档中的文本内容对齐,从而调整大型视觉语言模型以进行检索。此外,我们还介绍了 OpenDocVQA,这是首个统一的开放域文档视觉问题解答数据集,涵盖了不同的文档类型和格式。OpenDocVQA 为在开放域环境中训练和评估视觉丰富的文档检索和问题解答模型提供了全面的资源。实验表明,VDocRAG 的性能大大优于传统的基于文本的 RAG,并且具有很强的泛化能力,这凸显了针对真实世界文档的有效 RAG 范例的潜力。
11.AerOSeg: Harnessing SAM for Open-Vocabulary Segmentation in Remote Sensing Images
标题:AerOSeg:利用 SAM 进行遥感图像中的开放词汇分割
author:Saikat Dutta, Akhil Vasim, Siddhant Gole, Hamid Rezatofighi, Biplab Banerjee
publish:Accepted at EarthVision workshop, CVPR 2025
date Time:2025-04-12
paper pdf:http://arxiv.org/pdf/2504.09203v1
摘要:
超出预定义类别的图像分割是遥感领域的一项关键挑战,因为在推理过程中经常会出现新的、未见过的类别。开放词汇图像分割解决了传统监督分割模型中的这些泛化问题,同时减少了对大量每像素注释的依赖,而获取每像素注释既昂贵又耗费人力。大多数开放式词汇分割(OVS)方法都是针对自然图像设计的,但由于比例变化、方向变化和复杂的场景组合,遥感数据在使用时会遇到困难。这就需要开发专门针对遥感的 OVS 方法。在这种情况下,我们提出了一种适用于遥感数据的新型 OVS 方法 AerOSeg。首先,我们使用输入图像的多个旋转版本和特定领域的提示来计算稳健的图像-文本关联特征。然后,通过空间和类别细化块对这些特征进行细化。受 Segment Anything Model(SAM)在不同领域取得成功的启发,我们利用 SAM 特征来指导相关特征的空间细化。此外,我们还引入了语义反投影模块和损失,以确保 SAM 语义信息在整个分割管道中的无缝传播。最后,我们使用多尺度注意力感知解码器增强精炼的相关特征,生成最终的分割图。我们在三个基准遥感数据集(iSAID、DLRSD 和 OpenEarthMap)上验证了以 SAM 为指导的开放词汇遥感分割模型。我们的模型优于最先进的开放词汇分割方法,平均提高了 2.54 h-mIoU。
12.Ego4o: Egocentric Human Motion Capture and Understanding from Multi-Modal Input
标题:Ego4o:以自我为中心的人体运动捕捉和多模态输入理解
author:Jian Wang, Rishabh Dabral, Diogo Luvizon, Zhe Cao, Lingjie Liu, Thabo Beeler, Christian Theobalt
date Time:2025-04-11
paper pdf:http://arxiv.org/pdf/2504.08449v1
摘要:
这项工作的重点是利用消费类可穿戴设备(如虚拟现实/增强现实头盔、智能眼镜、手机和智能手表)跟踪和理解人体运动。这些设备提供多样化、多模态的传感器输入,包括自我中心图像和 1-3 个不同组合的稀疏 IMU 传感器。运动描述也可以伴随这些信号。多种多样的输入模式及其时断时续的可用性给持续的运动捕捉和理解带来了挑战。在这项工作中,我们提出了 Ego4o(o 代表 omni),这是一个从多模态自我中心输入中同时捕捉和理解人类运动的新框架。这种方法既能保持部分输入的性能,又能在结合多种模式时取得更好的效果。首先,将 IMU 传感器输入、可选的自我中心图像和人体运动文字描述编码到运动 VQ-VAE 的潜空间中。然后,将潜向量发送到 VQ-VAE 解码器,并进行优化以跟踪人体运动。当运动描述不可用时,可将潜向量输入多模态 LLM 以生成人体运动描述,从而进一步提高运动捕捉的准确性。定量和定性评估证明了我们的方法在预测准确的人体运动和高质量运动描述方面的有效性。
13.FocalLens: Instruction Tuning Enables Zero-Shot Conditional Image Representations
标题:FocalLens:通过指令调整实现零镜头条件图像表示法
author:Cheng-Yu Hsieh, Pavan Kumar Anasosalu Vasu, Fartash Faghri, Raviteja Vemulapalli, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Hadi Pouransari
date Time:2025-04-11
paper pdf:http://arxiv.org/pdf/2504.08368v1
摘要:
视觉理解本质上是与上下文相关的–我们在图像中关注什么取决于手头的任务。例如,如果给定一个手捧花束的人的图像,我们可能会根据感兴趣的情境,关注人(如衣服)或花的类型。然而,大多数现有的图像编码范式都将图像表示为固定的通用特征向量,忽略了针对不同下游用例优先处理不同视觉信息的潜在需求。在这项工作中,我们引入了 FocalLens,这是一种有条件的视觉编码方法,可根据感兴趣的上下文为同一图像生成不同的表示,并通过自然语言灵活表达。我们利用视觉指令调整数据,对预先训练好的视觉编码器进行对比性微调,将自然语言指令作为额外输入,生成条件图像表征。大量实验证实,与 CLIP 等标准视觉编码器生成的通用特征相比,FocalLens 的条件图像表征能更好地表达感兴趣的视觉特征。此外,我们还展示了 FocalLens 进一步提高了一系列下游任务的性能,包括图像-图像检索、图像分类和图像-文本检索,在具有挑战性的 SugarCrepe 和 MMVP-VLM 基准测试中分别平均提高了 5 分和 10 分。
14.VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering
标题:VLMT:用于多模态多跳问题解答的视觉语言多模态转换器
author:Qi Zhi Lim, Chin Poo Lee, Kian Ming Lim, Kalaiarasi Sonai Muthu Anbananthen
date Time:2025-04-11
paper pdf:http://arxiv.org/pdf/2504.08269v1
摘要:
跨文本、表格和图像的多模态数据越来越多,这对开发能够进行复杂跨模态推理的模型提出了新的挑战。现有的多模态多跳问题解答(MMQA)方法往往存在推理能力有限、依赖模态转换以及视觉和文本表征之间对齐不足等问题。为了解决这些局限性,本文介绍了视觉语言多模态转换器(VLMT),这是一种将基于转换器的视觉编码器与从序列到序列的语言模型集成在一起的统一架构。VLMT 采用直接标记级注入机制,在共享的嵌入空间内融合视觉和文本输入,无需中间投影层。为了增强跨模态对齐和推理能力,我们提出了一种三阶段预训练策略,以逐步对齐视觉语言表征,提高模型的多模态理解能力。在预训练骨干的基础上,两个特定任务模块被实例化,形成了一个两阶段的多模态质量分析框架:一个是预测文档相关性分数的多模态重anker,它采用了顶k策略的相对阈值进行上下文检索;另一个是多模态问题解答模型,它根据检索到的证据生成基于上下文的答案。在两个基准数据集上进行的综合实验证明了所提方法的有效性。在 MultimodalQA 验证集上,VLMT-Large 实现了 76.5% 的精确匹配率和 80.1% 的 F1 率,在精确匹配率和 F1 率上分别比之前的最先进方法高出 9.1% 和 8.8%。在 WebQA 方面,它的 QA 得分为 47.6,比之前的 PERQA 等模型高出 +3.2。这些结果凸显了 VLMT 在多模态推理方面的强大能力,以及它在推进现实世界信息检索和问题解答系统方面的潜力。