当前位置: 首页 > news >正文

多模态大模型研究每日简报(2025-07-17)

训练数据相关

  • RetinaLogos: Fine-Grained Synthesis of High-Resolution Retinal Images Through Captions (https://arxiv.org/abs/2505.12887): 为了解决高质量、标注视网膜成像数据稀缺的问题,该论文提出了一个创新性的流程,创建了一个包含140万条目的大型带标注的视网膜数据集 RetinaLogos-1400k。 它使用视觉语言模型(VLM)来描述视网膜状况和关键结构。基于这个数据集,论文提出了一个新颖的三步训练框架,RetinaLogos,从而能够对视网膜图像进行细粒度的语义控制,并准确地捕捉疾病进展的不同阶段、细微的解剖学变异和特定的病变类型。 实验结果表明,该方法在多个数据集上表现出卓越的性能。
  • Leveraging Language Prior for Infrared Small Target Detection (https://arxiv.org/abs/2507.13113): 本文提出了一种新颖的多模态红外小目标检测框架,该框架结合了语言先验来指导小目标检测。他们利用从语言先验导出的语言引导注意力权重来增强模型对红外小目标检测的能力。同时,他们构建了一个多模态红外数据集,该数据集既包含图像模态,又包含用于小目标检测的文本模态。
  • Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning (https://arxiv.org/abs/2505.13886): 本文提出Code2Logic,一种新颖的基于游戏代码的多模态推理数据合成方法。该方法利用大型语言模型(LLM)来调整游戏代码,从而能够通过代码执行自动获取推理过程和结果。
  • 高质量医学数据:MedPix 2.0: A Comprehensive Multimodal Biomedical Data set for Advanced AI Applications with Retrieval Augmented Generation and Knowledge Graphs (https://arxiv.org/abs/2407.02994): 本文说明了构建 MedPix 2.0 数据集的整个工作流程,并提供图形用户界面,旨在有效地导航 MongoDB 实例并获取原始数据。

训练策略

  • GLAD: Generalizable Tuning for Vision-Language Models (https://arxiv.org/abs/2507.13089): 针对视觉-语言模型在少样本学习中容易过拟合以及泛化能力不足的问题,提出了GLAD框架,该框架通过 LoRA 微调,并引入基于梯度的正则化技术,鼓励模型找到对数据分布变化更鲁棒的参数区域,从而提高模型的泛化能力。
  • (Almost) Free Modality Stitching of Foundation Models (https://arxiv.org/abs/2507.10015): 本文提出一种Hypernetwork模型对齐(Hyma)的新颖解决方案,用于最佳的单模态模型选择和连接器训练,通过利用超网络。
  • Differential-informed Sample Selection Accelerates Multimodal Contrastive Learning (https://arxiv.org/abs/2507.12998): 提出了一种新颖的差分信息样本选择(DISSect)方法,该方法能够准确有效地辨别噪声对应关系,从而加速训练。

大模型的行业应用

  • Intelligent Virtual Sonographer (IVS): Enhancing Physician-Robot-Patient Communication (https://arxiv.org/abs/2507.13052): 本文介绍了一种扩展现实(XR)中的对话式虚拟代理,该代理有助于医生、机器人超声系统(RUS)和患者之间的实时互动。该 IVS 代理以专业的方式与医生交流,同时向患者提供同情的解释和安慰。
  • Insights into a radiology-specialised multimodal large language model with sparse autoencoders (https://arxiv.org/abs/2507.12950): 本文将 Matryoshka-SAE 应用于放射学专业多模态大型语言模型 MAIRA-2,以解释其内部表示。通过对 SAE 特征进行大规模自动解释,识别出一系列临床相关概念。
  • Analysis of Image-and-Text Uncertainty Propagation in Multimodal Large Language Models with Cardiac MR-Based Applications (https://arxiv.org/abs/2507.12945): 本文提出了一个基于不确定性传播的多模态不确定性传播模型 (MUPM),以描述由 MLLM 输入中仅图像、仅文本和联合图像文本变化引起的不确定性之间的关系。

文生图/文生视频

  • Resurrect Mask AutoRegressive Modeling for Efficient and Scalable Image Generation (https://arxiv.org/abs/2507.13032): 该研究改进了 MAR 模型架构以提高图像生成质量, 通过替换因果注意力为双向注意力并融入 2D RoPE,实现了与 SOTA AR 模型相媲美的生成效果,同时显著减少了推理步骤。
  • LoViC: Efficient Long Video Generation with Context Compression (https://arxiv.org/abs/2507.12952): 本文提出了一种基于 DiT 的框架 LoViC,该框架通过分段生成过程生成长而连贯的视频。该方法的核心是 FlexFormer,一种表达性自编码器,可将视频和文本联合压缩为统一的潜在表示。
  • FashionPose: Text to Pose to Relight Image Generation for Personalized Fashion Visualization (https://arxiv.org/abs/2507.13311): 本文介绍了一种统一的文本到姿势到重照明生成框架 FashionPose。给定自然语言描述,该方法首先预测 2D 人体姿势,然后采用扩散模型生成高保真的人像图像,最后应用轻量级重照明模块。

底层模型架构

  • MMOne: Representing Multiple Modalities in One Scene (https://arxiv.org/abs/2507.11129): 本文提出了一个通用框架 MMOne,用于在单个场景中表示多个模态。 通过一个具有新颖模态指示器的模态建模模块来捕获每个模态的独特属性。 此外,还设计了一种多模态分解机制,用于根据模态差异将多模态高斯分布分解为单模态高斯分布。

其他主题

  • 多模态安全:Automating Steering for Safe Multimodal Large Language Models (https://arxiv.org/abs/2507.13255): 针对多模态大语言模型在面对对抗性多模态输入时的安全性问题,提出了一种模块化和自适应的推理时干预技术 AutoSteer,无需对底层模型进行任何微调即可提高 MLLM 的安全性。
  • 多模态导航:SE-VLN: A Self-Evolving Vision-Language Navigation Framework Based on Multimodal Large Language Models (https://arxiv.org/abs/2507.13152): 受自然智能体的进化能力的启发,本文提出了一个自进化 VLN 框架 (SE-VLN),使 VLN 智能体能够在测试期间不断进化。

编辑精选

  1. RetinaLogos: Fine-Grained Synthesis of High-Resolution Retinal Images Through Captions (https://arxiv.org/abs/2505.12887): 推荐理由: 医学图像数据标注成本高昂,该工作提供了一个有前景的数据合成方案,为眼科疾病的AI辅助诊断提供了新思路。
  2. Automating Steering for Safe Multimodal Large Language Models (https://arxiv.org/abs/2507.13255): 推荐理由: 关注MLLM安全问题,提出了一种实用的、可解释的框架,用于更安全地部署多模态AI系统,具有重要的现实意义。
  3. Leveraging Language Prior for Infrared Small Target Detection (https://arxiv.org/abs/2507.13113): 推荐理由: 红外小目标检测在军事、安防等领域有重要应用价值。该论文创新性地将语言先验融入到检测流程中,并构建了相应的多模态数据集,值得关注。
  4. Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning (https://arxiv.org/abs/2505.13886): 推荐理由: 针对视觉语言模型推理能力提升面临的数据匮乏问题,巧妙地利用游戏代码作为数据源,自动生成推理数据,提供了一种经济有效的数据增强方法。
http://www.dtcms.com/a/285975.html

相关文章:

  • 设计循环队列oj题(力口622)
  • 基于现代R语言【Tidyverse、Tidymodel】的机器学习方法与案例分析
  • OSPF路由协议的协商过程
  • (八)复习(拆分微服务)
  • 快速了解pycharm
  • 微服务基础环境搭建-centos7
  • HIVE实战处理(二十四)留存用户数
  • 第8天 | openGauss中一个数据库可以存储在多个表空间中
  • mybatisdemo(黑马)
  • 数据结构-3(双向链表、循环链表、栈、队列)
  • 前端-CSS (样式引入、选择器)
  • 7月18日总结
  • 深度学习之----对抗生成网络-pytorch-CycleGAN-and-pix2pix
  • Jenkins pipeline 部署docker通用模板
  • drm驱动学习(一)sunxi_drm初始化
  • 【leetcode】3201. 找出有效子序列的最大长度(1)
  • PyCharm 高效入门指南(核心模块详解二)
  • RoboBrain 2.0(具身智能论文阅读)
  • 笔试——Day12
  • 阿里云alicloud liunux3-安装docker
  • Python编程进阶知识之第二课学习网络爬虫(selenium)
  • JavaScript进阶篇——第九章 异常、this 与性能优化全解(终)
  • 14.链路聚合技术
  • 量化交易如何查询CFD指数实时行情
  • postman接口测试,1个参数有好几个值的时候如何测试比较简单快速?
  • IP协议深入理解
  • 20250718-4-Kubernetes 应用程序生命周期管理-Pod对象:实现机制_笔记
  • 如何保证缓存数据的一致性:数据库和缓存数据一致性,本地缓存和Redis缓存怎么保证数据一致性
  • Netty封装Websocket并实现动态路由
  • Spring Boot 应用优雅停机与资源清理:深入理解关闭钩子