多模态大模型研究每日简报(2025-07-24)
训练数据相关
-
SynC: Synthetic Image Caption Dataset Refinement with One-to-many Mapping for Zero-shot Image Captioning (https://arxiv.org/abs/2507.18616): 针对零样本图像描述(ZIC)中合成数据噪声问题,提出SynC框架,通过one-to-many映射,将更合适的caption重新分配给图像池中已有的图像,提升合成数据的质量,实验表明在多个ZIC模型上均有显著提升。
-
VideoMind: An Omni-Modal Video Dataset with Intent Grounding for Deep-Cognitive Video Understanding (https://arxiv.org/abs/2507.18552): 介绍了VideoMind,一个面向深度视频内容理解的多模态数据集,包含103K视频样本,每个样本配有音频和详细的文本描述,着重于意图表达,并通过人工验证建立了3K样本的金标准基准。
-
VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks (https://arxiv.org/abs/2407.19795): 为了研究视觉语言任务中深度学习模型的领域泛化能力,提出了VolDoGer数据集,该数据集针对图像描述、视觉问答和视觉蕴含三个视觉语言任务,通过扩展基于LLM的数据标注技术来构建,从而减轻了招聘人工标注员的负担。
-
When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning (https://arxiv.org/abs/2503.07588): 提出了一种带有动态图像金字塔(DIP)集成结构的文本引导的令牌修剪方法,并构建了一个名为LRS-VQA的新基准,该基准包含8个类别,7333个QA对,图像长度高达27328像素,以评估LVLM对大型RSI的感知能力,该方法利用文本感知的区域定位能力来识别关键视觉标记,并进行由RFM输出引导的粗到细图像切片选择和视觉标记修剪策略,避免直接处理整个大型图像。
-
PDB-Eval: An Evaluation of Large Multimodal Models for Description and Explanation of Personalized Driving Behavior (https://arxiv.org/abs/2507.18447): 引入了PDB-Eval,用于详细理解个性化驾驶行为,并使大型多模态模型(MLLM)与驾驶理解和推理保持一致,该基准包括PDB-X和PDB-QA两个主要组成部分,评估MLLM对时间驾驶场景的理解,并提出PDB-QA作为MLLM指令微调的视觉解释问答任务,以将MLLM的推理能力与驾驶任务对齐。
-
BearCUBS: A benchmark for computer-using web agents (https://arxiv.org/abs/2503.07919): 引入了BEARCUBS,这是一个用于评估网络代理搜索、浏览和识别网络事实信息能力的基准,该基准的每个问题都有一个简短的、明确的答案和人工验证的浏览轨迹,支持代理性能和策略的透明评估,不同于以往的网络代理基准,BEARCUBS需要访问实时网络内容,执行广泛的多模态交互。
训练策略
- Datasets and Recipes for Video Temporal Grounding via Reinforcement Learning (https://arxiv.org/abs/2507.18100): 提出了一种两阶段训练框架,该框架集成了监督微调与强化学习(RL),以提高VTG模型的准确性和鲁棒性,利用高质量的冷启动数据进行SFT初始化,然后进行难度可控的RL,以进一步增强时间定位和推理能力。
- SafeWork-R1: Coevolving Safety and Intelligence under the AI-45circ^{\\circ}circ Law (https://arxiv.org/abs/2507.18576): 提出了SafeLadder框架,通过大规模、渐进式、安全导向的强化学习后训练,使模型发展内在的安全推理和自我反思能力,在不牺牲通用能力的情况下,安全性能优于GPT-4.1和Claude Opus 4。
- LMM-Det: Make Large Multimodal Models Excel in Object Detection (https://arxiv.org/abs/2507.18300): 提出了一种简单而有效的方法LMM-Det,该方法利用大型多模态模型进行对象检测,而不依赖于专门的检测模块,通过引入数据分布调整和推理优化来提高召回率,重新组织指令对话以增强大型多模态模型的目标检测能力。
- Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis (https://arxiv.org/abs/2507.18569): 提出了对抗分布匹配(ADM)框架,利用基于扩散的判别器对齐真实和虚假分数估计器之间的潜在预测,以对抗方式进行分数蒸馏,并结合对抗蒸馏预训练和ADM微调成一个统一的流程DMDX,实现高效的图像和视频合成。
- TeEFusion: Blending Text Embeddings to Distill Classifier-Free Guidance (https://arxiv.org/abs/2507.18192): 提出了一种高效的蒸馏方法TeEFusion,直接将指导幅度融入文本嵌入,并提取教师模型复杂的采样策略,通过线性操作融合条件和无条件文本嵌入,在不增加额外参数的情况下重建所需的指导,同时使学生模型能够学习教师通过其复杂的采样方法产生的输出。
- QR-LoRA: Efficient and Disentangled Fine-tuning via QR Decomposition for Customized Generation (https://arxiv.org/abs/2507.04599): 提出了一种新的微调框架QR-LoRA,该框架利用QR分解进行结构化参数更新,以有效分离视觉属性,通过只训练一个额外的特定于任务的ΔR矩阵来减少可训练参数,并支持多个自适应的有效合并,而不会由于ΔR矩阵之间的强解缠属性而导致交叉污染。
- Visual Adaptive Prompting for Compositional Zero-Shot Learning (https://arxiv.org/abs/2502.20292): 提出了一种视觉自适应提示系统(VAPS),该系统利用可学习的视觉提示存储库和基于相似度的检索机制,在VLM框架内弥合语义和视觉特征之间的差距,该系统引入了一种动态视觉提示存储库机制,该机制根据图像的视觉特征选择最相关的属性和对象提示,并包括一个视觉提示适配器,鼓励模型学习更通用的嵌入空间。
- Learning to Generalize without Bias for Open-Vocabulary Action Recognition (https://arxiv.org/abs/2502.20158): 提出了一种新的元优化框架Open-MeDe,该框架通过静态去偏来提高已知到开放的泛化能力和图像到视频的去偏,采用跨批次元优化方案,通过虚拟评估来鼓励视频学习器快速泛化到任意后续数据,从而引导更平滑的优化前景,在优化过程中避免CLIP正则化,从而隐式地缓解了视频元学习器固有的静态偏差。
- External Knowledge Injection for CLIP-Based Class-Incremental Learning (https://arxiv.org/abs/2503.08510): 提出了一种基于CLIP的CIL的外部知识注入方法(ENGINE),该方法通过编码来自视觉和文本模态的信息知识的双分支注入调优框架来增强知识从数据集外部的转移,视觉分支通过数据增强来丰富视觉特征,而文本分支利用GPT-4重写区分性描述符。
大模型的行业应用
- 3D Software Synthesis Guided by Constraint-Expressive Intermediate Representation (https://arxiv.org/abs/2507.18625): 提出了Scenethesis,一种需求敏感的3D软件合成方法,它建立在ScenethesisLang之上,ScenethesisLang是一种特定领域的语言,作为细粒度的约束感知中间表示(IR),用于桥接自然语言需求和可执行的3D软件。
- Object segmentation in the wild with foundation models: application to vision assisted neuro-prostheses for upper limbs (https://arxiv.org/abs/2507.18517): 探讨了基础模型在野外场景下的语义对象分割能力,特别是针对视觉引导的上肢神经假体的应用,提出了一种基于注视点生成提示的方法,用于指导分割任何模型(SAM),并在自我中心视觉数据上对其进行微调。
- Scout: Leveraging Large Language Models for Rapid Digital Evidence Discovery (https://arxiv.org/abs/2507.18478): 提出了Scout,一个数字取证框架,它使用大型语言模型执行初步证据处理和优先级排序,可以从大量的潜在证据文件(磁盘映像、捕获的网络数据包、内存转储等)中识别相关的证据。
- DiagR1: A Vision-Language Model Trained via Reinforcement Learning for Digestive Pathology Diagnosis (https://arxiv.org/abs/2507.18433): 构建了一个大规模胃肠病理学数据集,其中包含微观描述和诊断结论,并提出了一种提示论证策略,该策略结合了病变分类和解剖部位信息,并采用了一种结合了监督微调和群体相对策略优化(GRPO)的训练后流程,以提高推理质量和输出结构,用于消化病理诊断。
- GenAI for Automotive Software Development: From Requirements to Wheels (https://arxiv.org/abs/2507.18223): 介绍了一种由GenAI支持的汽车软件自动开发方法,重点是自主和高级驾驶辅助系统(ADAS)能力,该过程以需求为输入,而主要生成的输出是用于模拟环境的测试场景代码,以及针对连接到测试台的车辆硬件平台的所需ADAS功能的实现。
- ReSem3D: Refinable 3D Spatial Constraints via Fine-Grained Semantic Grounding for Generalizable Robotic Manipulation (https://arxiv.org/abs/2507.18262): 提出了ReSem3D,一个用于语义多样化环境的统一操作框架,利用VFM和MLLM之间的协同作用,实现细粒度的视觉基础,并动态构建分层3D空间约束,以进行实时操作,该框架由MLLM中的分层递归推理驱动,MLLM与VFM交互,以从自然语言指令和RGB-D观测中自动构建3D空间约束。
- Multimodal Behavioral Patterns Analysis with Eye-Tracking and LLM-Based Reasoning (https://arxiv.org/abs/2507.18252): 提出了一个多模态人机协作框架,旨在增强从眼动追踪信号中提取认知模式,该框架包括:(1)一个多阶段管道,使用水平和垂直分割以及LLM推理来揭示潜在的注视模式;(2)一个专家模型共同评分模块,该模块将专家判断与LLM输出集成,以生成行为解释的信任分数;(3)一个混合异常检测模块,该模块结合了基于LSTM的时间建模和LLM驱动的语义分析。
- DEFAME: Dynamic Evidence-based FAct-checking with Multimodal Experts (https://arxiv.org/abs/2412.10510): 提出了一种动态的、基于证据的、具有多模态专家的事实检查方法(DEFAME),这是一种模块化的、零样本MLLM管道,用于开放域的文本-图像声明验证,通过动态选择工具和搜索深度来提取和评估文本和视觉证据,从而执行端到端的验证。
- Personalization Toolkit: Training Free Personalization of Large Vision Language Models (https://arxiv.org/abs/2502.02452): 提出了一种新的LVLM个性化免训练方法,并引入了一个全面的真实世界基准,旨在严格评估个性化任务的各个方面,该方法利用预训练的视觉基础模型来提取独特的特征,应用检索增强生成(RAG)技术来识别视觉输入中的实例,并采用视觉提示策略来指导模型输出,从而实现高效且灵活的多概念个性化。
文生图/文生视频
- Captain Cinema: Towards Short Movie Generation (https://arxiv.org/abs/2507.18634): 提出了Captain Cinema,一个用于短电影生成的框架,给定电影故事情节的详细文本描述,首先生成一系列关键帧来概述整个叙事,然后使用视频合成模型生成它们之间的时空动态,引入了交错训练策略,用于多模态扩散转换器(MM-DiT),专门用于长上下文视频数据。
- Identifying Prompted Artist Names from Generated Images (https://arxiv.org/abs/2507.18633): 提出了一个提示艺术家识别的基准:仅从图像预测提示中调用的艺术家姓名,该数据集包含195万张图像,涵盖110位艺术家,并跨越四个泛化设置:保留艺术家、增加提示复杂性、多艺术家提示和不同的文本到图像模型。
- T2VWorldBench: A Benchmark for Evaluating World Knowledge in Text-to-Video Generation (https://arxiv.org/abs/2507.18107): 提出了T2VWorldBench,这是第一个用于评估文本到视频模型的生成能力的系统评估框架,涵盖6个主要类别,60个子类别和1200个提示,涵盖了物理、自然、活动、文化、因果关系和对象等各种领域。
- Att-Adapter: A Robust and Precise Domain-Specific Multi-Attributes T2I Diffusion Adapter via Conditional Variational Autoencoder (https://arxiv.org/abs/2503.11937): 提出了一种新的即插即用模块Att-Adapter,旨在在预训练的扩散模型中实现细粒度的多属性控制,通过条件变分自动编码器(CVAE)来缓解过拟合,使多个域属性与文本条件自然协调。
- Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models (https://arxiv.org/abs/2503.17724): 提出了一种名为TwT的方法,通过显式地缓解这些一致性来构建隐蔽的后门样本,利用句法结构作为后门触发器来放大对文本变化的敏感性,并提出了一种基于核最大平均差异(KMMD)的正则化方法,以对齐后门样本和良性样本之间的交叉注意响应分布。
- DIFFA: Large Language Diffusion Models Can Listen and Understand (https://arxiv.org/abs/2507.18452): 介绍了DIFFA,第一个基于扩散的大型音频语言模型,旨在执行口语理解,DIFFA集成了冻结的扩散语言模型和轻量级双适配器架构,从而弥合了语音理解和自然语言推理之间的差距。
- FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities (https://arxiv.org/abs/2505.20147): 通过引入FUDOKI来挑战基于AR的方法,FUDOKI是一个完全基于离散流匹配的统一多模态模型,作为传统AR范例的替代方案,通过利用具有动力学最优速度的度量诱导概率路径,该框架超越了先前基于掩蔽的损坏过程,实现了具有自校正能力的迭代细化,以及在生成过程中更丰富的双向上下文集成。
底层模型架构
- GIIFT: Graph-guided Inductive Image-free Multimodal Machine Translation (https://arxiv.org/abs/2507.18562): 构建了新的多模态场景图,以保存和集成模态特定信息,并引入了GIIFT,这是一个两阶段的图引导归纳图像自由MMT框架,该框架使用跨模态图注意网络适配器来学习统一融合空间中的多模态知识,并将其归纳推广到更广泛的无图像翻译领域。
- Improving Large Vision-Language Models’ Understanding for Field Data (https://arxiv.org/abs/2507.18311): 介绍FieldLVLM,一种旨在提高大型视觉语言模型对现场数据理解能力的新框架,由现场感知语言生成策略和数据压缩多模态模型调整组成,现场感知语言生成策略利用专用机器学习管道从现场数据中提取关键物理特征,例如流动分类、雷诺数和涡流模式。
- Flash-VStream: Efficient Real-Time Understanding for Long Video Streams (https://arxiv.org/abs/2506.23825): 提出了一种高效的视频语言模型Flash-VStream,该模型能够处理极长的视频并实时响应用户查询,设计了一个闪存存储模块,其中包含一个低容量上下文存储器,用于聚合长上下文时间信息并对信息密度分布进行建模,以及一个高容量增强存储器,用于根据该分布检索详细的空间信息。
- ViLU: Learning Vision-Language Uncertainties for Failure Prediction (https://arxiv.org/abs/2507.07620): 引入ViLU,这是一种新的视觉语言不确定性量化框架,该框架通过利用所有与任务相关的文本表示来关联不确定性估计,通过交叉注意集成视觉嵌入、预测的文本嵌入和图像条件文本表示来构建不确定性感知多模态表示。
- A Multimodal Seq2Seq Transformer for Predicting Brain Responses to Naturalistic Stimuli (https://arxiv.org/abs/2507.18104): 提出了一个序列到序列的Transformer,可以从视觉、听觉和语言输入中自动回归地预测fMRI活动,解码器通过双重交叉注意机制整合来自先前大脑状态、当前刺激和情节级别摘要的信息,该机制既关注从刺激中提取的感知信息,又关注由叙述内容的高级摘要提供的叙述信息。
- EVEv2: Improved Baselines for Encoder-Free Vision-Language Models (https://arxiv.org/abs/2502.06788): 系统地阐明了使用预训练视觉编码器、离散标记器和从头开始的极简视觉层的VLM之间的性能差距,深入挖掘了无编码器VLM的未被检查的特征,为无编码器VLM开发了可与主流基于编码器的VLM竞争的有效策略,并推出了EVEv2.0,这是一个新的改进的无编码器VLM系列。
- IntentVCNet: Bridging Spatio-Temporal Gaps for Intention-Oriented Controllable Video Captioning (https://arxiv.org/abs/2507.18531): 提出了一种新的IntentVCNet,将LVLM中固有的时间和空间理解知识统一起来,从而弥合了来自提示和模型角度的时空差距,提出了一种提示组合策略,旨在使LLM能够对表征用户意图和视频序列的提示之间的隐式关系进行建模,然后提出了一种参数高效的框适配器,该适配器增强了全局视觉上下文中的对象语义信息,以便视觉标记具有关于用户意图的先验信息。
- Rethinking Occlusion in FER: A Semantic-Aware Perspective and Go Beyond (https://arxiv.org/abs/2507.15401): 提出了ORSANet,引入辅助多模态语义指导来消除面部遮挡的歧义并学习高级语义知识,定制了一个多尺度交叉交互模块(MCM)来适应性地融合不同尺度内的地标特征和语义增强表示,设计了一个动态对抗排斥增强损失(DARELoss),动态调整模糊类别的边缘,并构建了第一个面向遮挡的FER数据集Occlu-FER,以促进对各种真实世界遮挡条件的专门鲁棒性分析。
- Scaling RL to Long Videos (https://arxiv.org/abs/2507.07966): 引入了一个完整的框架,该框架通过强化学习将视觉语言模型(VLM)中的推理扩展到长视频,通过集成三个关键组件来应对长视频推理的独特挑战:(1)一个大规模数据集LongVideo-Reason;(2)一个两阶段训练管道;(3)一个用于长视频RL的训练基础设施,名为多模态强化序列并行(MR-SP)。
编辑精选
- SynC: Synthetic Image Caption Dataset Refinement with One-to-many Mapping for Zero-shot Image Captioning (https://arxiv.org/abs/2507.18616): 该工作针对合成数据在零样本图像描述中的应用,提出了一种新颖的数据清洗方法,有效提升了合成数据的质量,具有很强的实用价值。
- SafeWork-R1: Coevolving Safety and Intelligence under the AI-45circ^{\\circ}circ Law (https://arxiv.org/abs/2507.18576): 该工作关注AI安全问题,提出了一种新的框架,能够在提升模型能力的同时,保证其安全性,对于构建可信赖的AI系统具有重要意义。
- ReSem3D: Refinable 3D Spatial Constraints via Fine-Grained Semantic Grounding for Generalizable Robotic Manipulation (https://arxiv.org/abs/2507.18262): 该工作结合了MLLM和VFM,实现了更精细的视觉定位,并动态构建了3D空间约束,提升了机器人在复杂环境中的操作能力和泛化性,对于机器人领域的应用具有重要参考价值。
- Flash-VStream: Efficient Real-Time Understanding for Long Video Streams (https://arxiv.org/abs/2506.23825): 针对长视频理解的挑战,该工作提出了一种高效的视频语言模型,能够在降低计算和内存开销的同时,实现实时理解,对于实际应用具有重要意义。