多模态大模型研究国庆简报【2025-10-1~2025-10-10】
Agent相关
- MATRIX: Multimodal Agent Tuning for Robust Tool-Use Reasoning (https://arxiv.org/abs/2510.08567)
该论文提出了一个以视觉为中心的Agent tuning框架,通过自动合成多模态轨迹、生成逐步偏好对来训练VLM控制器,以实现强大的工具使用推理能力。该框架构建了一个大规模的多模态任务数据集M-TRACE,并在此基础上微调了MATRIX Agent。此外,还引入了Pref-X数据集进行偏好学习。实验结果表明,MATRIX在多个基准测试中超越了现有的VLM,展示了其在多模态工具使用方面的有效性。 - Chain-of-Trigger: An Agentic Backdoor that Paradoxically Enhances Agentic Robustness (https://arxiv.org/abs/2510.08238)
该论文揭示了LLM驱动的Agent的安全性漏洞,提出了一种新型的多步骤后门攻击Chain-of-Trigger Backdoor (CoTri)。CoTri依赖于一个有序的触发序列,首先是初始触发,然后后续触发从环境中提取,从而实现对Agent的长期操纵。实验结果表明,CoTri实现了近乎完美的攻击成功率,同时保持了近零的误触发率。更令人惊讶的是,CoTri的植入反而提高了Agent在良性任务上的性能,甚至增强了其对环境干扰的鲁棒性,这使得攻击更隐蔽。 - MoA-VR: A Mixture-of-Agents System Towards All-in-One Video Restoration (https://arxiv.org/abs/2510.08508)
提出了一种混合Agent的视频修复系统MoA-VR,通过三个协同工作的Agent模拟专业人员的推理和处理过程:退化识别、路由和修复、修复质量评估。该系统构建了一个大规模、高分辨率的视频退化识别基准,并构建了一个VLM驱动的退化识别器。此外,还引入了一个由LLM驱动的自适应路由器,通过观察工具使用模式自主学习有效的修复策略。 - CompassLLM: A Multi-Agent Approach toward Geo-Spatial Reasoning for Popular Path Query (https://arxiv.org/abs/2510.07516)
提出了一种新颖的多Agent框架CompassLLM,该框架巧妙地利用LLM的推理能力解决地理空间领域中的热门路径查询问题。CompassLLM采用两阶段流程:搜索阶段识别热门路径,生成阶段在历史轨迹数据中不存在现有路径的情况下合成新路径。
训练数据相关
- FastUMI-100K: Advancing Data-driven Robotic Manipulation with a Large-scale UMI-style Dataset (https://arxiv.org/abs/2510.08022)
论文介绍了一个大规模的UMI风格多模态演示数据集FastUMI-100K,旨在克服现有机器人操作数据集在可扩展性、轨迹平滑性和跨机器人平台适用性方面的局限性。该数据集包含超过10万条轨迹,涵盖54个任务和数百种物体类型。实验结果表明,FastUMI-100K能够支持各种基线算法实现高策略成功率,证实了其在解决复杂、动态操作挑战方面的鲁棒性、适应性和实际适用性。 - USIM and U0: A Vision-Language-Action Dataset and Model for General Underwater Robots (https://arxiv.org/abs/2510.07869)
本文介绍了USIM,一个基于模拟的多任务视觉-语言-动作(VLA)数据集,用于水下机器人。USIM包含来自1852个轨迹的超过561K帧,总计约15.6小时的BlueROV2交互,跨越9个不同的场景中的20个任务。
Benchmark
- VideoNorms: Benchmarking Cultural Awareness of Video Language Models (https://arxiv.org/abs/2510.08543)
为了评估VideoLLM的文化意识,作者们构建了一个名为VideoNorms的基准测试,其中包含来自美国和中国文化的超过1000个(视频片段,规范)对,并标注了社会文化规范、规范遵守和违反标签以及言语和非言语证据。 - SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models (https://arxiv.org/abs/2510.08559)
为了评估LMM在科学领域的视频推理能力,作者们提出了SciVideoBench。它包含1000个选择题,这些题目来源于超过25个专业学术领域的科学实验视频。 - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization (https://arxiv.org/abs/2510.08540)
该研究构建了一个多模态基准MM-HELIX,用于评估MLLM的长期反思推理能力。MM-HELIX包含1260个样本,涵盖42个具有挑战性的合成任务,这些任务需要迭代思考和回溯。实验结果表明,现有的MLLM在长期反思推理方面存在明显的性能缺陷。 - VideoVerse: How Far is Your T2V Generator from a World Model? (https://arxiv.org/abs/2510.08398)
为了解决现有文本到视频生成评估基准的不足,该研究提出了VideoVerse,一个综合性的基准,专注于评估T2V模型在理解复杂的时间因果关系和世界知识方面的能力。VideoVerse包含300个精心策划的提示,涉及815个事件和793个二元评估问题,涵盖了动态和静态属性的十个精心定义的评估维度。 - Distance-Annotated Traffic Perception Question Answering (DTPQA) (https://arxiv.org/abs/2510.08352)
作者提出了一个名为DTPQA的VQA基准,专注于交通场景中的感知问题,并增加了距离标注。该基准用于评估小型VLM在不同距离上的感知能力。 - Video-STAR: Reinforcing Open-Vocabulary Action Recognition with Tools (https://arxiv.org/abs/2510.08480)
该研究提出了一种名为Video-STAR的框架,用于增强开放词汇动作识别(OVAR)能力。该框架将上下文子运动分解与工具增强强化学习相结合,通过动态调用特定领域的工具进行跨模态交错,从而实现特定类别的推理能力,并减少跨模态幻觉。 - NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions (https://arxiv.org/abs/2510.08173)
论文提出了NavSpace基准,用于探究导航Agent的空间感知和推理能力。该基准包含六个任务类别和1228个轨迹-指令对。 - GTR-Bench: Evaluating Geo-Temporal Reasoning in Vision-Language Models (https://arxiv.org/abs/2510.07791)
为了评估视觉语言模型(VLM)的地理时间推理能力,作者提出了Geo-Temporal Reasoning benchmark (GTR-Bench)。该基准更具挑战性,因为它需要地图和视频之间的多视角切换、多个非重叠视野视频的联合推理,以及对任何视频上下文都未观察到的时空区域的推理。 - CS3-Bench: Evaluating and Enhancing Speech-to-Speech LLMs for Mandarin-English Code-Switching (https://arxiv.org/abs/2510.07881)
本文提出了一个代码切换语音到语音基准测试(CS3-Bench),用于评估语音到语音LLM在知识密集型问答和开放式对话中的语言对齐能力。 - FinMR: A Knowledge-Intensive Multimodal Benchmark for Advanced Financial Reasoning (https://arxiv.org/abs/2510.07852)
论文介绍了一个高质量、知识密集型的多模态数据集FinMR,旨在评估专家级金融推理能力。FinMR包含超过3200个精心策划和专家注释的问答对,涵盖15个不同的金融主题,确保了广泛的领域多样性,并整合了复杂的数学推理、高级金融知识和细致的视觉解释任务。 - VTC-Bench: An Evaluation Framework for Visual Token Compression Methods (https://arxiv.org/abs/2510.07143)
提出VTC-Bench,一个评估视觉token压缩方法的框架,该框架结合了一种数据过滤机制来消除现有基准的噪声,从而能够更公平、更准确地评估视觉token压缩方法。 - Few-Shot Adaptation Benchmark for Remote Sensing Vision-Language Models (https://arxiv.org/abs/2510.07135)
提出了一种用于评估遥感视觉-语言模型(RSVLM)上小样本自适应方法的结构化基准。该基准通过十个遥感场景分类数据集进行全面实验,将五种广泛使用的小样本自适应策略应用于三个具有不同骨干的最新RSVLM。 - DynamicEval: Rethinking Evaluation for Dynamic Text-to-Video Synthesis (https://arxiv.org/abs/2510.07441)
为了解决现有的T2V评估基准的局限性,作者们提出了DynamicEval,一个包含系统策划的提示的基准,强调动态摄像机运动,并配有来自十个T2V模型生成的3k个视频的45k个人工注释。DynamicEval评估视频质量的两个关键维度:背景场景一致性和前景对象一致性。 - Are We Using the Right Benchmark: An Evaluation Framework for Visual Token Compression Methods (https://arxiv.org/abs/2510.07143)
指出当前用于评估视觉token压缩方法的基准存在任务不匹配问题,并提出VTC-Bench,一个评估视觉token压缩方法的框架,该框架结合了一种数据过滤机制来消除现有基准的噪声,从而能够更公平、更准确地评估视觉token压缩方法。 - AV-EMO-Reasoning: Benchmarking Emotional Reasoning Capabilities in Omni-modal LLMS with Audio-visual Cues (https://arxiv.org/abs/2510.07355)
为了全面评估LLM中的情感连贯性,作者们提出了AV-EMO-Reasoning基准,利用带有真实世界设置的精选的单轮和多轮合成视听语料库,并在连续、分类和感知指标下进行评估。 - AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs (https://arxiv.org/abs/2510.07293)
为了评估长格式音频的理解和推理效率,作者们提出了AudioMarathon,一个旨在评估长格式音频的理解和推理效率的基准。AudioMarathon提供了一组多样化的任务,这些任务建立在三个支柱之上:长上下文音频输入,时长从90.0秒到300.0秒不等,涵盖语音、声音和音乐的完整领域,以及需要多跳推理的复杂推理。
大模型的行业应用
- AI-Driven Radiology Report Generation for Traumatic Brain Injuries (https://arxiv.org/abs/2510.08498)
提出了一种用于自动生成颅脑损伤放射学报告的AI方法。该模型集成了AC-BiFPN和Transformer架构,可以提取多尺度特征并生成连贯的诊断报告。 - Vision-Enabled LLMs in Historical Lexicography: Digitising and Enriching Estonian-German Dictionaries from the 17th and 18th Centuries (https://arxiv.org/abs/2510.07931)
本文介绍了爱沙尼亚语言研究所于2022年至2025年开展的关于将大型语言模型(LLM)应用于17世纪和18世纪爱沙尼亚语词典的研究。作者探讨了三个主要领域:用现代词形和含义丰富历史词典;使用视觉LLM对哥特体(Fraktur)印刷的来源执行文本识别;并准备创建统一的跨源数据集。 - LinguaSim: Interactive Multi-Vehicle Testing Scenario Generation via Natural Language Instruction Based on Large Language Models (https://arxiv.org/abs/2510.08046)
提出了一种基于LLM的框架LinguaSim,该框架将自然语言转换为逼真的交互式3D场景,确保动态车辆交互以及输入描述与生成的场景之间的忠实对齐。
底层模型架构
- Looking to Learn: Token-wise Dynamic Gating for Low-Resource Vision-Language Modelling (https://arxiv.org/abs/2510.08470)
提出了一种轻量级的基于解码器的架构,具有(1) token-wise动态门控,用于自适应融合语言和视觉线索,(2)特征调制和通道注意力,以最大限度地利用有限的视觉信息,以及(3)用于视觉定位的辅助对比目标。评估结果表明,动态门控是一种强大的工具,即使在严重约束下也能实现高效的多模态学习。 - MARC: Memory-Augmented RL Token Compression for Efficient Video Understanding (https://arxiv.org/abs/2510.07915)
提出了一种基于记忆增强强化学习的token压缩方法MARC,它集成了结构化检索和基于rl的蒸馏。MARC采用一种“检索-然后-压缩”策略,使用一个视觉记忆检索器(VMR)来选择关键剪辑,并使用一个压缩组相对策略优化(c-grpo)框架将推理能力从教师模型提炼到学生模型。
训练策略
- How to Teach Large Multimodal Models New Skills (https://arxiv.org/abs/2510.08564)
该论文研究了如何在不丧失先前能力的情况下,教会大型多模态模型(LMM)新的技能。研究发现,在窄领域微调后,在held-out任务上的明显“遗忘”可以在后期部分恢复。论文提出了两种简单的、鲁棒的微调方法,可以在限制漂移的同时实现强大的学习效果:(i)只更新自注意力投影层,(ii)只更新MLP Gate&Up,同时冻结Down投影。 - Entropy Regularizing Activation: Boosting Continuous Control, Large Language Models, and Image Classification with Activation as Entropy Constraints (https://arxiv.org/abs/2510.08549)
本文提出了一种新的范式ERA,通过应用专门设计的激活函数到模型的输出,将采样熵约束在给定的阈值之上。实验表明,该方法在不同领域都具有广泛的有效性:在LLM中,将Qwen2.5-Math-7B的AIME 2025分数提高了37.4%;在连续控制强化学习Agent中,在具有挑战性的HumanoidBench上,性能比SAC等强大的基线提高了30%以上;对于图像分类,ResNet-50的ImageNet top-1准确率提高了0.69%。 - Don’t Run with Scissors: Pruning Breaks VLA Models but They Can Be Recovered (https://arxiv.org/abs/2510.08464)
论文发现,剪枝会导致VLA模型性能急剧下降,并增加安全违规行为。为此,作者们提出了一种名为GLUESTICK的后剪枝恢复方法,该方法通过在密集模型和剪枝模型之间进行一次性插值来计算校正项,从而在保持稀疏性优势的同时恢复大部分原始模型的功能。 - Approximate Domain Unlearning for Vision-Language Models (https://arxiv.org/abs/2510.08132)
论文提出了一个名为Approximate Domain Unlearning (ADU)的新问题,要求降低指定领域(例如,插图)图像的识别精度,同时保持其他领域(例如,真实)的精度。为了解决域分布在特征空间中高度纠缠的问题,提出了一种新方法,该方法显式地分离域分布并自适应地捕获特定于实例的域信息。 - Test-Time Matching: Unlocking Compositional Reasoning in Multimodal Models (https://arxiv.org/abs/2510.07632)
作者重新审视了组合推理的问题,并表明广泛使用的评估指标系统地低估了模型的能力。为了解决这个问题,作者引入了一个组匹配分数,更好地利用组结构,并揭示了在对比视觉语言模型(VLM)和多模态大型语言模型(MLLM)中大量的隐藏能力。此外,仅仅在测试时过拟合到诱导的组匹配会将这种隐藏的能力转移到标准评估指标下的更高分数,从而缩小了报告的大部分差距。 - Cross-Modal Attention Guided Unlearning in Vision-Language Models (https://arxiv.org/abs/2510.07567)
该研究探索了视觉-语言模型的unlearning,特别是在VQA任务中。研究利用跨模态注意力来探索视觉token在VLM输出生成中的作用,并利用它来构建跨模态注意力引导的unlearning (CAGUL),这是一种轻量级且高效的VLM unlearning框架。
文生图/文生视频
- MultiCOIN: Multi-Modal COntrollable Video INbetweening (https://arxiv.org/abs/2510.08561)
本文提出了一种名为MultiCOIN的视频插帧框架,该框架允许多模态控制,包括深度过渡和分层、运动轨迹、文本提示和运动定位的目标区域,同时在灵活性、易用性和精细视频插值精度之间取得平衡。 - VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning (https://arxiv.org/abs/2510.08555)
本文介绍了一个任意时空视频补全任务,其中视频是从任意的、用户指定的补丁生成的,这些补丁放置在任何空间位置和时间戳,类似于在视频画布上绘画。 - X2Video: Adapting Diffusion Models for Multimodal Controllable Neural Video Rendering (https://arxiv.org/abs/2510.08530)
该论文提出了一种扩散模型X2Video,用于渲染由内在通道(包括反照率、法线、粗糙度、金属度和辐照度)引导的逼真视频,同时支持参考图像和文本提示的直观多模态控制,用于全局和局部区域。 - Kontinuous Kontext: Continuous Strength Control for Instruction-based Image Editing (https://arxiv.org/abs/2510.08532)
作者介绍了一种指令驱动的编辑模型Kontinuous Kontext,该模型提供了一个新的维度来控制编辑强度,使用户能够以平滑和连续的方式逐步调整编辑效果,从无变化到完全实现结果。 - InstructX: Towards Unified Visual Editing with MLLM Guidance (https://arxiv.org/abs/2510.08485)
论文提出了一个统一的图像和视频编辑框架InstructX。通过深入分析MLLM的设计选择,并结合图像和视频的特点,该方法实现了在单一模型中统一图像和视频编辑任务,并取得了最先进的性能。 - InstructUDrag: Joint Text Instructions and Object Dragging for Interactive Image Editing (https://arxiv.org/abs/2510.08181)
该论文提出了一种基于扩散的框架InstructUDrag,它结合了文本指令和对象拖动,从而能够同时进行对象拖动和基于文本的图像编辑。 - UniVideo: Unified Understanding, Generation, and Editing for Videos (https://arxiv.org/abs/2510.08377)
本文提出了UniVideo,一个多功能的框架,将统一建模扩展到视频领域。UniVideo采用双流设计,结合了用于指令理解的MLLM和用于视频生成的MMDiT,实现了在单个多模态指令范式下统一各种视频生成和编辑任务,并在这些任务上进行联合训练。 - Real-Time Motion-Controllable Autoregressive Video Diffusion (https://arxiv.org/abs/2510.08131)
论文提出了AR-Drag,一种用于实时图像到视频生成的rl增强型少步AR视频扩散模型,具有多种运动控制。该模型通过基于轨迹的奖励模型,通过强化学习进一步改进了基础I2V模型。 - Beyond Textual CoT: Interleaved Text-Image Chains with Deep Confidence Reasoning for Image Editing (https://arxiv.org/abs/2510.08157)
该论文提出了一种名为MURE的框架,用于图像编辑,该框架将视觉编辑过程从纯粹基于文本的推理转变为一系列交错的文本和视觉原理。并发布了第一个CoT-Edit-14K数据集,包含14K高质量编辑示例。 - UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution (https://arxiv.org/abs/2510.08143)
本文提出了一种统一的生成式视频超分辨率框架UniMMVSR,该框架结合了混合模态条件,包括文本、图像和视频。 - One Stone with Two Birds: A Null-Text-Null Frequency-Aware Diffusion Models for Text-Guided Image Inpainting (https://arxiv.org/abs/2510.08273)
论文提出了一种null-text-null频率感知扩散模型(NTN-Diff),用于文本引导的图像修复,通过将跨masked和unmasked区域的语义一致性分解为每个频带的一致性,同时保留unmasked区域,从而避免了一系列挑战。 - TTOM: Test-Time Optimization and Memorization for Compositional Video Generation (https://arxiv.org/abs/2510.07940)
论文介绍了一种测试时优化和记忆(TTOM)框架,该框架在推理过程中将VFM输出与时空布局对齐,以实现更好的文本图像对齐。与现有工作中直接干预潜在或注意每样本不同,该研究整合并优化了由通用布局-注意目标引导的新参数。 - GenPilot: A Multi-Agent System for Test-Time Prompt Optimization in Image Generation (https://arxiv.org/abs/2510.07217)
论文提出了一个名为GenPilot的即插即用多Agent系统,该系统集成了错误分析、基于聚类的自适应探索、细粒度验证和用于迭代优化的记忆模块。
其他显著主题
- Towards Proprioception-Aware Embodied Planning for Dual-Arm Humanoid Robots (https://arxiv.org/abs/2510.07882)
提出DualTHOR,一个新的双臂人形机器人模拟器,具有连续过渡和应急机制。在此基础上,作者提出了Proprio-MLLM,一种通过结合本体感受信息与基于运动的位置嵌入和跨空间编码器来增强具身意识的模型。 - Implementing Semantic Join Operators Efficiently (https://arxiv.org/abs/2510.08489)
本文提出了一种新算法,灵感来自传统数据库系统中的块嵌套循环连接算子实现。该算法将来自两个输入表的行批量集成到单个提示中,并利用LLM来识别当前输入中所有匹配的行对。 - Bringing the Apple, Not the Sofa: Impact of Irrelevant Context in Embodied AI Commands on VLA Models (https://arxiv.org/abs/2510.07067)
论文系统研究了最先进的VLA模型在语言扰动下的鲁棒性。研究发现,随着上下文大小的扩展,模型性能会持续下降,并且模型对随机上下文表现出相对鲁棒性,而语义和词汇上相似的上下文可能会导致质量下降。
编辑精选
-
MATRIX: Multimodal Agent Tuning for Robust Tool-Use Reasoning (https://arxiv.org/abs/2510.08567): 该论文提出了一种有效的Agent Tuning框架,并通过实验验证了其在多模态工具使用方面的有效性,对于Agent的工具使用方向具有重要的参考价值。
-
How to Teach Large Multimodal Models New Skills (https://arxiv.org/abs/2510.08564): 这项工作深入研究了如何在不丧失先前能力的情况下,教会大型多模态模型(LMM)新的技能。两种简单的微调方法值得关注。
-
VideoNorms: Benchmarking Cultural Awareness of Video Language Models (https://arxiv.org/abs/2510.08543): 随着 VideoLLM 的全球部署,文化意识变得至关重要。VideoNorms 是一个很好的尝试,它提供了一个基准来评估模型在不同文化背景下的理解能力,对于开发更具文化敏感性的AI系统具有重要意义。
-
Chain-of-Trigger: An Agentic Backdoor that Paradoxically Enhances Agentic Robustness (https://arxiv.org/abs/2510.08238): 该研究揭示了LLM驱动的Agent的安全性漏洞,并提出了一种新型的后门攻击,值得关注。
-
DynamicEval: Rethinking Evaluation for Dynamic Text-to-Video Synthesis (https://arxiv.org/abs/2510.07441): 强调了摄像机运动的重要性并解决了对动态运动的评估,这对于更全面地评估T2V模型至关重要。