多模态大模型研究每日简报【2025-10-16】
训练数据相关
- Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs (https://arxiv.org/abs/2510.13795)
该论文介绍了一个高质量的监督微调数据集 Honey-Data-15M,包含约1500万个QA对,并通过多种清洗技术和双层CoT策略进行了增强。同时,还提出了数据策展管道 HoneyPipe 及其底层框架 DataStudio。基于该数据集训练的8B模型 Bee-8B 在完全开放的 MLLM 中取得了新的 SOTA,性能可与 InternVL3.5-8B 等半开放模型相媲美。 - Closing the Gap Between Text and Speech Understanding in LLMs (https://arxiv.org/abs/2510.13632)
该论文分析了语音 LLM 在理解能力上不如文本 LLM 的原因,即text-speech understanding gap。作者认为是由于文本能力在适应过程中被遗忘以及语音和文本之间的跨模态错位导致的。针对这两个因素,论文提出 SALAD 方法,结合跨模态知识蒸馏和有针对性的合成数据,在减少数据需求的同时提高对齐效果并减轻遗忘。 - CoVAND: What “Not” to Detect: Negation-Aware VLMs via Structured Reasoning and Token Merging (https://arxiv.org/abs/2510.13232)
该论文提出了一种解决视觉语言模型(VLM)在理解否定方面存在的局限性的方法。主要贡献包括:构建了一个数据集CoVAND,采用结构化的思维链(CoT)和基于VQA的流程,以生成高质量、实例级别的否定数据。同时,提出了一个轻量级的适配方法NegToMe,通过文本标记合并模块直接解决肯定偏见造成的结构性损失。
Agent相关
- RECODE: Reasoning Through Code Generation for Visual Question Answering (https://arxiv.org/abs/2510.13756)
论文提出了 RECODE,一个 agentic 框架,用于解决多模态大语言模型(MLLM)在处理图表等结构化视觉信息时面临的精确推理挑战。RECODE 首先生成多个候选程序来重构输入图像,然后使用评论者选择最忠实的重构并迭代地改进代码。 - InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy (https://arxiv.org/abs/2510.13778)
该论文介绍了一种用于空间定位和机器人控制的统一框架 InternVLA-M1。该框架通过空间引导的视觉-语言-动作训练,将空间定位作为指令和机器人动作之间的关键链接。InternVLA-M1 采用两阶段流程:首先,在超过 230 万个空间推理数据上进行空间定位预训练,通过将指令与视觉、与具体实现无关的位置对齐来确定“在哪里行动”;其次,通过即插即用的空间提示生成与具体实现相关的动作,以决定“如何行动”。
训练策略
- Information-Theoretic Criteria for Knowledge Distillation in Multimodal Learning (https://arxiv.org/abs/2510.13182)
本文提出了跨模态互补性假设(CCH),并从信息论角度探讨了多模态学习中知识蒸馏(KD)的有效性。该假设认为,当教师和学生表征之间的互信息超过学生表征和标签之间的互信息时,跨模态KD才是有效的。 - Steer-MoE: Efficient Audio-Language Alignment with a Mixture-of-Experts Steering Module (https://arxiv.org/abs/2510.13558)
论文提出了 SteerMoE,一种用于音频-语言对齐的新型模块化框架。SteerMoE 冻结了音频编码器和 LLM 解码器,仅训练一个轻量级的 steering 模块,该模块使用 MoE 路由器来动态选择和应用学习到的 steering 向量,逐步将连续音频表示转换为 LLM 可理解的空间。
大模型的行业应用
- DistilCLIP-EEG: Enhancing Epileptic Seizure Detection Through Multi-modal Learning and Knowledge Distillation (https://arxiv.org/abs/2510.13497)
提出了一种基于CLIP框架的新型多模态模型DistilCLIP-EEG,该模型集成了EEG信号和文本描述,以捕获癫痫发作的综合特征。 - Improving Visual Recommendation on E-commerce Platforms Using Vision-Language Models (https://arxiv.org/abs/2510.13359)
该研究展示了视觉语言模型(VLM)在电商平台产品推荐中的应用。通过在 Mercari 平台上微调 SigLIP 模型,并将其应用于产品推荐系统,实现了点击率和转化率的显著提升。 - StressTransfer: Stress-Aware Speech-to-Speech Translation with Emphasis Preservation (https://arxiv.org/abs/2510.13194)
本文提出了一种应激感知的语音到语音翻译(S2ST)系统,该系统通过利用LLM进行跨语言应力转换来保留单词级别的重点。
Benchmark
- AVAR-Net: A Lightweight Audio-Visual Anomaly Recognition Framework with a Benchmark Dataset (https://arxiv.org/abs/2510.13630)
该论文提出了一种轻量级、高效的音视频异常识别框架 AVAR-Net,适用于现实环境。AVAR-Net 包含四个主要模块:音频特征提取器、视频特征提取器、融合策略和一个用于对异常识别进行跨模态关系建模的序列模式学习网络。同时,还引入了一个新的视觉-音频异常识别(VAAR)数据集,作为一个包含 3,000 个真实世界视频的中等规模基准,这些视频具有跨越十个不同异常类别的同步音频。 - Spatial-DISE: A Unified Benchmark for Evaluating Spatial Reasoning in Vision-Language Models (https://arxiv.org/abs/2510.13394)
论文提出了一个统一的基准测试 Spatial-DISE,用于评估视觉语言模型(VLM)中的空间推理能力。Spatial-DISE 基于认知理论,将任务分为四个基本象限:内在-静态、内在-动态、外在-静态和外在-动态空间推理。此外,为了解决数据稀缺的问题,作者开发了一个可扩展的自动化流程来生成多样且可验证的空间推理问题,从而产生了一个新的 Spatial-DISE 数据集,其中包括 Spatial-DISE Bench(559 个评估 VQA 对)和 Spatial-DISE-12K(12K+ 个训练 VQA 对)。 - Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark (https://arxiv.org/abs/2510.13759)
该论文提出了 Uni-MMMU,这是一个综合性的跨学科基准,旨在系统地评估统一多模态模型在生成和理解之间的双向协同作用。Uni-MMMU 涵盖科学、编码、数学和谜题等八个以推理为中心的领域。 - MMLongCite: A Benchmark for Evaluating Fidelity of Long-Context Vision-Language Models (https://arxiv.org/abs/2510.13276)
本文介绍了一个综合性的基准MMLongCite,旨在评估LVLM在长上下文场景中的保真度。 - SketchSem3D: CymbaDiff: Structured Spatial Diffusion for Sketch-based 3D Semantic Urban Scene Generation (https://arxiv.org/abs/2510.13245)
户外3D语义场景生成为城市模拟和自动驾驶等应用生成逼真且语义丰富的环境。然而,由于缺乏公开可用的、注释良好的数据集,这方面的进展受到了限制。我们引入了SketchSem3D,这是第一个用于从抽象手绘草图和卫星图像的伪标签注释生成3D户外语义场景的大规模基准。
文生图/文生视频
- FlashWorld: High-quality 3D Scene Generation within Seconds (https://arxiv.org/abs/2510.13678)
本文提出了一种名为FlashWorld的生成模型,该模型可以在几秒钟内从单个图像或文本提示生成3D场景,速度比以前的作品快10~100倍,同时具有更高的渲染质量。 - VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator (https://arxiv.org/abs/2510.13454)
该论文介绍了一种名为 VIST3A 的通用框架,通过将文本到视频模型与 3D 重建系统结合,实现了文本到 3D 的生成。VIST3A 通过模型拼接和直接奖励微调,保留了两个组件中编码的丰富知识,并确保生成的潜在空间可以解码为一致且具有感知说服力的 3D 场景几何体。 - Reinforcement Learning Meets Masked Generative Models: Mask-GRPO for Text-to-Image Generation (https://arxiv.org/abs/2510.13418)
本文提出了一种新的方法 Mask-GRPO,将基于 Group Relative Policy Optimization (GRPO) 的强化学习 (RL) 融入到被忽略的掩码生成模型中,用于文本到图像 (T2I) 的生成。
其他
- Generative Universal Verifier as Multimodal Meta-Reasoner (https://arxiv.org/abs/2510.13804)
该论文介绍了 Generative Universal Verifier,这是一种为视觉语言模型和统一多模态模型设计的插件,旨在提供在推理和生成过程中对视觉结果进行反思和改进的基本能力。论文构建了 ViVerBench,这是一个综合基准,涵盖 16 个类别的关键任务,用于评估多模态推理中的视觉结果。 - Reasoning in Space via Grounding in the World (https://arxiv.org/abs/2510.13800)
该论文提出 3D 视觉 grounding 是空间推理的基石,并介绍了 Grounded-Spatial Reasoner (GS-Reasoner) 来探索有效的空间表示,以弥合它们之间的差距。为了解决现有 3D LLM 缺乏统一的 3D 表示的问题,GS-Reasoner 提出了一种简单而有效的双路径池化机制,该机制将几何特征与语义和位置提示紧密对齐,构建了一个统一的基于图像块的 3D 表示,该表示封装了所有基本信息,而无需增加输入 token 的数量。 - VisCoP: Visual Probing for Video Domain Adaptation of Vision Language Models (https://arxiv.org/abs/2510.13808)
为了解决大型视觉语言模型(VLM)在应用于与预训练数据存在显著分布差异的新领域时性能急剧下降的问题,该论文提出了一种名为 Vision Contextualized Probing (VisCoP) 的方法。VisCoP 通过一组可学习的视觉探针来增强 VLM 的视觉编码器,从而能够以最小的参数修改实现高效的领域特定适应。 - UrbanFusion: Stochastic Multimodal Fusion for Contrastive Learning of Robust Spatial Representations (https://arxiv.org/abs/2510.13774)
论文介绍了 UrbanFusion,一种 Geo-Foundation 模型 (GeoFM),它以随机多模态融合 (SMF) 为特征。该框架采用特定于模态的编码器来处理不同类型的输入,包括街道视图图像、遥感数据、制图地图和兴趣点 (POI) 数据。这些多模态输入通过基于 Transformer 的融合模块进行集成,该模块学习统一的表示。 - End-to-End Multi-Modal Diffusion Mamba (https://arxiv.org/abs/2510.13253)
本文提出了一种新的架构MDM(多模态扩散Mamba),它利用基于Mamba的多步选择扩散模型,通过统一的变分自动编码器逐步生成和细化特定于模态的信息,用于编码和解码。 - EPIPTrack: Rethinking Prompt Modeling with Explicit and Implicit Prompts for Multi-Object Tracking (https://arxiv.org/abs/2510.13235)
论文提出了一个统一的多模态视觉语言跟踪框架EPIPTrack,该框架利用显式和隐式提示进行动态目标建模和语义对齐。 - Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses (https://arxiv.org/abs/2510.13281)
本文介绍了一种新的生成式错误校正(GER)框架,该框架在音频-视觉语音识别(AVSR)中直接在语言空间中对特定于模态的证据进行推理。 - Generalizing WiFi Gesture Recognition via Large-Model-Aware Semantic Distillation and Alignment (https://arxiv.org/abs/2510.13390)
该论文提出了一个新颖的泛化框架,称为 Large-Model-Aware Semantic Distillation and Alignment (GLSDA),该框架利用预训练大型基础模型的语义先验来增强领域内和跨领域场景中的手势表示学习。 - DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning (https://arxiv.org/abs/2510.13375)
在视觉-语言-动作(VLA)模型中,为了精确的空间推理能力,本文提出了 DepthVLA,通过预训练的深度预测模块,显式地结合了空间感知能力。 - Language as a Label: Zero-Shot Multimodal Classification of Everyday Postures under Data Scarcity (https://arxiv.org/abs/2510.13364)
该研究调查了在数据稀缺的情况下,提示词的特异性如何影响对视觉相似类别(如人类姿势)的零样本分类。
编辑精选
- Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs (https://arxiv.org/abs/2510.13795):开源社区一直缺乏高质量的多模态数据,此论文提供了一个高质量的数据集,有助于推动完全开源 MLLM 的发展。
- InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy (https://arxiv.org/abs/2510.13778):将空间信息显式地引入 VLA 模型,解决了机器人控制中精确空间推理的问题,并取得了显著的性能提升,对于机器人领域的应用具有重要意义。
- MMLongCite: A Benchmark for Evaluating Fidelity of Long-Context Vision-Language Models (https://arxiv.org/abs/2510.13276):弥补了多模态长文本基准的缺失,对于研究长文本理解能力具有重要意义。
- RECODE: Reasoning Through Code Generation for Visual Question Answering (https://arxiv.org/abs/2510.13756): 提出了用代码生成的方式来增强视觉问答的可靠性,非常新颖,有启发性。