多模态大模型研究每日简报(2025-07-17)
训练数据相关
- RetinaLogos: Fine-Grained Synthesis of High-Resolution Retinal Images Through Captions (https://arxiv.org/abs/2505.12887): 为了解决高质量、标注视网膜成像数据稀缺的问题,该论文提出了一个创新性的流程,创建了一个包含140万条目的大型带标注的视网膜数据集 RetinaLogos-1400k。 它使用视觉语言模型(VLM)来描述视网膜状况和关键结构。基于这个数据集,论文提出了一个新颖的三步训练框架,RetinaLogos,从而能够对视网膜图像进行细粒度的语义控制,并准确地捕捉疾病进展的不同阶段、细微的解剖学变异和特定的病变类型。 实验结果表明,该方法在多个数据集上表现出卓越的性能。
- Leveraging Language Prior for Infrared Small Target Detection (https://arxiv.org/abs/2507.13113): 本文提出了一种新颖的多模态红外小目标检测框架,该框架结合了语言先验来指导小目标检测。他们利用从语言先验导出的语言引导注意力权重来增强模型对红外小目标检测的能力。同时,他们构建了一个多模态红外数据集,该数据集既包含图像模态,又包含用于小目标检测的文本模态。
- Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning (https://arxiv.org/abs/2505.13886): 本文提出Code2Logic,一种新颖的基于游戏代码的多模态推理数据合成方法。该方法利用大型语言模型(LLM)来调整游戏代码,从而能够通过代码执行自动获取推理过程和结果。
- 高质量医学数据:MedPix 2.0: A Comprehensive Multimodal Biomedical Data set for Advanced AI Applications with Retrieval Augmented Generation and Knowledge Graphs (https://arxiv.org/abs/2407.02994): 本文说明了构建 MedPix 2.0 数据集的整个工作流程,并提供图形用户界面,旨在有效地导航 MongoDB 实例并获取原始数据。
训练策略
- GLAD: Generalizable Tuning for Vision-Language Models (https://arxiv.org/abs/2507.13089): 针对视觉-语言模型在少样本学习中容易过拟合以及泛化能力不足的问题,提出了GLAD框架,该框架通过 LoRA 微调,并引入基于梯度的正则化技术,鼓励模型找到对数据分布变化更鲁棒的参数区域,从而提高模型的泛化能力。
- (Almost) Free Modality Stitching of Foundation Models (https://arxiv.org/abs/2507.10015): 本文提出一种Hypernetwork模型对齐(Hyma)的新颖解决方案,用于最佳的单模态模型选择和连接器训练,通过利用超网络。
- Differential-informed Sample Selection Accelerates Multimodal Contrastive Learning (https://arxiv.org/abs/2507.12998): 提出了一种新颖的差分信息样本选择(DISSect)方法,该方法能够准确有效地辨别噪声对应关系,从而加速训练。
大模型的行业应用
- Intelligent Virtual Sonographer (IVS): Enhancing Physician-Robot-Patient Communication (https://arxiv.org/abs/2507.13052): 本文介绍了一种扩展现实(XR)中的对话式虚拟代理,该代理有助于医生、机器人超声系统(RUS)和患者之间的实时互动。该 IVS 代理以专业的方式与医生交流,同时向患者提供同情的解释和安慰。
- Insights into a radiology-specialised multimodal large language model with sparse autoencoders (https://arxiv.org/abs/2507.12950): 本文将 Matryoshka-SAE 应用于放射学专业多模态大型语言模型 MAIRA-2,以解释其内部表示。通过对 SAE 特征进行大规模自动解释,识别出一系列临床相关概念。
- Analysis of Image-and-Text Uncertainty Propagation in Multimodal Large Language Models with Cardiac MR-Based Applications (https://arxiv.org/abs/2507.12945): 本文提出了一个基于不确定性传播的多模态不确定性传播模型 (MUPM),以描述由 MLLM 输入中仅图像、仅文本和联合图像文本变化引起的不确定性之间的关系。
文生图/文生视频
- Resurrect Mask AutoRegressive Modeling for Efficient and Scalable Image Generation (https://arxiv.org/abs/2507.13032): 该研究改进了 MAR 模型架构以提高图像生成质量, 通过替换因果注意力为双向注意力并融入 2D RoPE,实现了与 SOTA AR 模型相媲美的生成效果,同时显著减少了推理步骤。
- LoViC: Efficient Long Video Generation with Context Compression (https://arxiv.org/abs/2507.12952): 本文提出了一种基于 DiT 的框架 LoViC,该框架通过分段生成过程生成长而连贯的视频。该方法的核心是 FlexFormer,一种表达性自编码器,可将视频和文本联合压缩为统一的潜在表示。
- FashionPose: Text to Pose to Relight Image Generation for Personalized Fashion Visualization (https://arxiv.org/abs/2507.13311): 本文介绍了一种统一的文本到姿势到重照明生成框架 FashionPose。给定自然语言描述,该方法首先预测 2D 人体姿势,然后采用扩散模型生成高保真的人像图像,最后应用轻量级重照明模块。
底层模型架构
- MMOne: Representing Multiple Modalities in One Scene (https://arxiv.org/abs/2507.11129): 本文提出了一个通用框架 MMOne,用于在单个场景中表示多个模态。 通过一个具有新颖模态指示器的模态建模模块来捕获每个模态的独特属性。 此外,还设计了一种多模态分解机制,用于根据模态差异将多模态高斯分布分解为单模态高斯分布。
其他主题
- 多模态安全:Automating Steering for Safe Multimodal Large Language Models (https://arxiv.org/abs/2507.13255): 针对多模态大语言模型在面对对抗性多模态输入时的安全性问题,提出了一种模块化和自适应的推理时干预技术 AutoSteer,无需对底层模型进行任何微调即可提高 MLLM 的安全性。
- 多模态导航:SE-VLN: A Self-Evolving Vision-Language Navigation Framework Based on Multimodal Large Language Models (https://arxiv.org/abs/2507.13152): 受自然智能体的进化能力的启发,本文提出了一个自进化 VLN 框架 (SE-VLN),使 VLN 智能体能够在测试期间不断进化。
编辑精选
- RetinaLogos: Fine-Grained Synthesis of High-Resolution Retinal Images Through Captions (https://arxiv.org/abs/2505.12887): 推荐理由: 医学图像数据标注成本高昂,该工作提供了一个有前景的数据合成方案,为眼科疾病的AI辅助诊断提供了新思路。
- Automating Steering for Safe Multimodal Large Language Models (https://arxiv.org/abs/2507.13255): 推荐理由: 关注MLLM安全问题,提出了一种实用的、可解释的框架,用于更安全地部署多模态AI系统,具有重要的现实意义。
- Leveraging Language Prior for Infrared Small Target Detection (https://arxiv.org/abs/2507.13113): 推荐理由: 红外小目标检测在军事、安防等领域有重要应用价值。该论文创新性地将语言先验融入到检测流程中,并构建了相应的多模态数据集,值得关注。
- Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning (https://arxiv.org/abs/2505.13886): 推荐理由: 针对视觉语言模型推理能力提升面临的数据匮乏问题,巧妙地利用游戏代码作为数据源,自动生成推理数据,提供了一种经济有效的数据增强方法。