当前位置: 首页 > news >正文

AAAI 2025论文分享│面向生物医学的具有像素级洞察力的多模态大语言模型

本推文介绍了一篇被AAAI 2025接收的论文《Towards a Multimodal Large Language Model with Pixel-Level Insight for Biomedicine》,由百度、中国农业大学、中国科学院自动化研究所和北京大学共同完成。论文提出了首个面向医学视觉问答和像素级定位的端到端多模态大语言模型MedPLIB。MedPLIB支持视觉问答、任意像素级提示(点、边界框和自由形状)以及像素级定位,实现了在医学领域的像素级理解能力。此外,为了缓解多模态大模型在生物医学领域数据稀缺的问题,作者们还发布了汇集了大量带有类别标签的分割数据集MeCoVQA,涵盖8种模态,共计31万对复杂医学影像问答和区域理解样本。实验结果在多个数据集上验证了MedPLIB的先进性能。

推文作者为许东舟,审校为黄星宇和邱雪。

论文链接:

Towards a Multimodal Large Language Model with Pixel-Level Insight for Biomedicine| Proceedings of the AAAI Conference on Artificial Intelligence

代码链接:https://github.com/ShawnHuang497/MedPLIB

一、研究背景及主要贡献

1.1 研究背景

随着大语言模型(LLM)与多模态学习的发展,GPT-4V和LLaVA这样的多模态大语言模型在视觉理解与文本生成方面取得了显著进展。大模型被逐步引入到生物医学领域,催生了诸如LLaVA-Med和Med-PaLM M这类医学多模态模型的研究。这类模型不仅能够生成高质量的医学问答,还能辅助分析医学影像,具有巨大潜力。

然而,现有的医学多模态大模型仍主要聚焦于图像级理解,未能深入到医学影像分析中至关重要的像素级理解层面。像素级感知在生物医学中的意义尤其重大:它能够帮助模型识别细微的病变或组织结构变化,提升区域理解和定位的精确性,有助于医生更好地制定诊疗方案。

目前,面向像素级的生物医学多模态大语言模型仍面临两大挑战:

(1)数据稀缺

由于隐私规定以及标注成本高昂,导致像素级和复杂VQA数据的严重短缺。现有公开的 VQA 数据集通常是面向图像级的多项选择题,缺乏像素级分析的潜力。同时,分割数据集通常只包含分割掩码和简单的类别标签,缺乏文本语义信息。

(2)模型适配难:

医学影像分析任务既涉及像素级空间理解,也涉及基于知识的问答。这种多模态的输入和输出不仅要求模型在架构上具备很高的灵活性,还要求模型在有限的参数空间中平衡不同任务的知识和能力。

1.2 本文贡献

(1)提出了一种面向生物医学的端到端多模态大语言模型MedPLIB。该模型具备像素级洞察力。同时支持VQA、像素级提示(点、边界框、自由形状)和像素级定位。实验结果表明,MedPLIB在多个医学视觉语言数据集上取得了最先进的成果。

(2)该数据集涵盖8种模态,共计31万对复杂医学影像问答和区域理解样本。

(3)所有数据、代码和模型权重均开源,面向研究社区开放。

方法

2.1 MedPLIB

图 1  MedPLIB是一个具备广泛能力并支持多种成像模态的生物医学多模态大语言模型

MedPLIB具有图像级及理解和像素级理解两方面的能力,图1左侧Image-level Understanding部分展示了模型在整幅图像层面的回答能力。例如用户提问:“你能解释这幅图像的总体发现吗?”,模型给出回答“这张图像展示了头部和颈部区域的扫描,揭示了视神经萎缩的情况,表现为视神经盘变薄和形态颜色异常……

图1右侧Pixel-level Understanding部分则展示了模型在像素级层面的理解能力,不仅能对整幅图像进行提问,还能指出感兴趣的区域,或直接要求模型分割出掩码。模型除了提供自然语言回答之外,还能生成像素级分割掩码。比如提问:“你能描述该区域内的可见内容<region>”,模型回答“区域显示的是肝脏,这是一个重要器官……”。此外,MedPLIB还能提供像素级的分割掩码。

图 2  MedPLIB的架构。由三部分组成:编码器、混合专家大语言模型和解码器

MedPLIB的优异性能得益于其新颖的模型架构。其整体架构可分为三部分:编码器(Encoder)、混合专家大语言模型(MoE LLM)和解码器(Decoder)。

图2展示了 MedPLIB 的工作流程。首先,输入医学影像、用户文本问题以及可选的区域提示。在编码阶段,医学影像先经预训练 CLIP 提取全图特征;如需像素级输出,则通过ViT以及医学适配层提取像素特征。区域提示方面,对用户选取的感兴趣区域进行随机采样,通过MLP映射为视觉向量。用 “<region>和</region>” 标记把该向量嵌入到文本特征的指定位置,最后将视觉、文本两组向量序列进行拼接,输入至 MoE LLM。蓝色框内的MoE LLM是模型的核心部分,由一位视觉‑语言问答专家(VL Expert)和一位像素定位专家(Grounding Expert)组成。路由器网络为每个token选择最合适的专家进行处理。在随后的解码阶段,文本和像素级定位会被分别送入相应的解码器中。文本支路经线性层输出医学回答。像素支路提取标记为“<SEG>”的特征向量,经投影后与像素特征一起输入到SAM‑Med掩码解码器,生成目标区域的分割掩码。凭借上述设计,MedPLIB能够同时支持医学回答和像素级标注,从而满足全图诊断到局部像素级分割的多任务需求。

2.2 MeCoVQA数据集

图 3  MeCoVQA 数据集的构建流程(a)与示例(b)

为了缓解开源数据稀缺的问题,本文提出了一种创建详细交互式数据集的全新策略,即通过人类与AI助手合作生成。MeCoVQA数据集的构建流程分为三步,如图3(a)部分所示,具体来说:

步骤1:基于掩码,人工生成每幅图像的实例级元信息(如图3(a)中的Meta Info)。从 SA-Med2D-20M中随机抽取了 10 万张带有实例掩码的医学图像。接着补充额外细节,编制了包括模态、扫描区域、方向和对象实例的元信息。

步骤2:将元信息输入到AI助手,生成对图像的全局描述,通过调整提示词为每种模态生成500个数据点。在完成人工质检,确保所有数据点都符合质量标准之后定稿提示词。

步骤3:利用AI助手,基于步骤2中获取的元信息和全局描述,生成像素级对话数据。这一步需要多次人工调整提示词,确保数据质量。

图3(b)展示了一个具体示例。左侧列举了CT、超声、X-Ray、MRI等多种医学模态。

在传统视觉问答(VQA)中,用户对图像提出全局问题,例如:

Q: 你对整幅图像做出诊断分析是什么?

A: 腹部CT显示正常解剖结构,双肾对称,胃扩张,肝脏和脾脏正常,识别到胆囊、下腔静脉、主动脉等。

在区域级视觉问答(RQA)中,使用<region>和</region>标签标记了图像中的区域。例如图3(b)部分,CT横截面中标出的绿色区域:

Q: 你能描述这个区域 <region></region>中可见的结构吗?

A:左肾大小和形态正常。

实验及结果

3.1 实验设置

本研究对模型实行了多阶段的训练策略,具体模型设置、各阶段的使用数据集如表1、表2所示。

1 模型设置

具体配置

像素编码器和解码器

SAM-Med 2D

大语言模型

LLaMA-7B

视觉塔

CLIP-Large

MLP 激活函数

GELU

总激活参数量

120 亿

2 各训练阶段训练数据集

训练阶段

训练数据集

第一阶段

LLaVA-Med-alignment

第二阶段

MeCoVQA-R、MeCoVQA-C、SLAKE、PathVQA、PMC-VQA、ImageClef2021、ImageClef2019、VQA-RAD

第三阶段

MeCoVQA-G

第四阶段

第二阶段和第三阶段数据集合

 

训练集规模:33万、40万、10万、50万

四阶段耗时:9h、17h、15h、77h

3.2 性能评估

表 3  VQA任务性能

OmniMedVQA是一套采用单选题形式的大型医学视觉问答基准。表1给出了无MoE版MedPLIB和完整版MedPLIB在OmniMedVQA开源部分的评测结果。

数据显示,完整版的MedPLIB的性能显著优于其他医学多模态大语言模型,且在七种影像模态上的平均表现比排名第二的BLIP‑2高7.84%。同时,完整版的MedPLIB在复杂问答数据集(MeCoVQA‑C)、区域问答数据集(MeCoVQA‑R)上的准确率分别达到了58.49%和64.92%,显著领先于其他多模态大语言模型。

表 4 MeCoVQA‑G测试集及跨模态零样本性能

由于此前尚无具备像素级定位能力的生物医学多模态大语言模型,文中将MedPLIB与几种拥有该能力的小型模型,以及通用领域中具有代表性的LISA进行了对比。如表 4所示,MedPLIB在像素定位数据集(MeCoVQA‑G)上的mDice得分比LISA高5.37 %。其性能能够与LViT相近,但是明显落后于其他几种模型。

为了评估模型的泛化能力,文中还在五种医学影像模态上对MedPLIB进行了零样本测试,实验结果显示其在所有模态上均显著优于其他几种对比模型。这表明,MedPLIB有望解决传统小型医学定位模型难以克服的跨模态泛化难题。

不同训练阶段的影响

此外,文中还构建了五个对照变体,对多阶段微调方案进行消融验证。表5结果表明,当4个训练阶段全部保留时,MedPLIB取得了最高的平均性能,证明了证明完整的多阶段微调策略最为有效。

四.总结

文中提出了一种全新的像素级多模态大语言模型—MedPLIB,实现了面向生物医学的全面视觉语言理解。不仅支持图像级的问答和分析,还能实现任意区域的提示和像素级定位能力。文中引入了一种多阶段混合专家训练策略,分别针对视觉-语言理解和像素级定位进行预训练,并通过MoE实现两者在不同任务中的灵活协调。同时,研究还发布了一个通过人类和AI助手合作生成的全新多模态医学视觉问答数据集MeCoVQA,涵盖8种模态,共计31万对复杂医学影像问答和区域理解样本。缓解了在医学影像领域,详细问答交互的开源数据集有限的问题。

相关文章:

  • 谷歌网站建设今日新闻最新消息50字
  • 制作微信小程序步骤黑帽seo工具
  • 转运网站开发营销软件有哪些
  • 网站建设价格是哪些方面决定的做一个网站需要什么
  • 营销推广包括几个方面seo主管招聘
  • 购物网站哪个好病毒式营销的案例
  • 精品方案 | GCKontrolGCAir在汽车ECU协同开发中的应用
  • 小程序入门:跳过域名校验、跨域与 Ajax 问题解析
  • WPF中Converter基础用法
  • 众趣科技与中原地产达成VR看房技术合作,赋能房产经纪数字化转型
  • C++ 快速回顾(二)
  • heygem报错Error: Error invoking remote method ‘model/addModel‘:
  • 16.1 Python应用容器化终极指南:Dockerfile多阶段构建与安全优化实战
  • 适合初学者(kubernetes)k8s脚本安装
  • .NET测试工具Parasoft dotTEST内置安全标准,编码合规更高效
  • 基于 SpringBoot+JSP+ElementUI+jQuery 助农生鲜销售系统设计与实现
  • 使用ASIO的协程实现高并发服务器
  • 数据结构-第三节-树与二叉树
  • 《汇编语言:基于X86处理器》第5章 过程(1)
  • IDE如何快速切换JLINK版本
  • HarmonyOs开发之——TypeScript介绍、入门,及 TypeScript、JavaScript、ArkTs的具体区别解读。
  • 制药行业的精细化管理:GCOM80-2NET自动化解决方案
  • Python+selenium自动化生成测试报告
  • 营业额统计-02.代码开发及功能测试
  • 命名数据网络 | 兴趣包(Interest Packet)
  • GitLab 18.1 正式发布Maven 虚拟仓库、密码泄露检测等功能,可升级体验!