当前位置: 首页 > news >正文

【论文阅读】MMedPO: 用临床感知多模态偏好优化调整医学视觉语言模型

MMedPO: 用临床感知多模态偏好优化调整医学视觉语言模型

    • 1.背景
    • 2.核心问题:
    • 3.方法:
    • 3. 实验结果与优势
    • 4. 技术贡献与意义
    • 5.结论

MMedPO: Aligning Medical Vision-Language Models with Clinical-Aware Multimodal Preference Optimization

MMedPO: 用临床感知多模态偏好优化调整医学视觉语言模型

gitgub:地址

1.背景

医学视觉-语言模型(Med-LVLMs)结合了视觉理解与自然语言处理能力,在疾病诊断、影像报告生成等任务中具有重要应用价值。然而,现有模型存在严重的事实性错误,即幻觉问题(Hallucination),生成的文本与输入医学图像内容不符。例如,模型可能根据预训练知识错误地描述”肺部存在结节“,而实际影像显示正常。这种问题的根源在于模态未对齐(Modality Misalignment),模型过度依赖文本知识,忽视视觉输入的关键信息。

传统方法通过偏好优化(Preference Optimization)对齐多模态数据,但是医学场景的临床相关性(Clinical Relevance)未被充分考虑。现有工作生成的偏好样本(如简单错误答案)缺乏医学意义,导致模型无法有效区分关键错误,对齐效果受限。

2.核心问题:

现有方法的两大缺陷

  • 临床相关性不足:传统偏好样本(如”肺部有结石“)的医学错误过于明显,模型容易区分,但无法纠正更具迷惑性的临床错误(如误诊病灶位置)。
  • 局部病灶忽视:医学影像的关键信息集中与局部病灶区域(如肿瘤、骨折),而现在有方法未针对性引导模型关注这些区域。

研究目标:设计一种临床感知的多模态偏好优化方法,提升模型对医学图像关键区域的理解,减少事实性错误。

3.方法:

提出了 MMedPO,一种临床感知多模态偏好优化方法,以解决 Med-LVLM 中模态不对齐的难题,包含三个关键步骤。

在这里插入图片描述

(1)多模态偏好数据构造

  • 策略1:注入合理医学幻觉
    • 目标:生成具有临床意义的错误回到作为”不偏好样本“(dispreference)。
    • 实现:通过目标Med-LVLM多次采样生成候选回答,用GPT-4o筛选出与真实答案矛盾但医学上合理的错误(如”肺部结节“误诊为”肝脏病变“),确保错误具备临床迷惑性。
  • 策略2:局部病灶噪声干扰
    • 目标:破坏模型对关键病灶区域的视觉理解。
    • 实现:利用医学视觉工具(如MedKLIP)定位病灶区域,仅在局部加入噪声,生成”不偏好“图像-文本对,例如,对CT影像中的肿瘤区域加噪,是模型忽略该区域。

(2)临床相关性量化

  • 文本相关性评分:通过多Med-LLM(multi-agent collaboration system)协作评估回答的临床意义。多个医学大模型(如LLaMa3-Med42、BioMistral)通过辩论机制达成共识,避免单一模型偏差。
  • 视觉置信度评分:利用视觉工具(如病灶检测模型)输出病灶区域置信度,放映局部噪声的可靠性。

(3)临床感知的偏好优化

  • 加权DPO损失:将临床评分作为样本权重,优化目标函数。高临床相关性的样本在训练权重更大,引导模型更关注医学关键错误。

3. 实验结果与优势

  • 数据集:涵盖医学视觉问答(SLAKE、VQA-RAD)和报告生成(IU-Xray、MIMIC-CXR)。
  • 性能对比
    • Med-VQA任务:MMedPO在开放性问题(Open)上平均提升14.2%,闭卷问题(Closed)提升51.7%。
    • 报告生成任务:BLEU和ROUGE-L指标显著优于基线(如DPO、STLLaVA-Med)。
  • 关键结论
    • 局部噪声优于全局噪声(表4):病灶区域加噪对模型视觉理解提升更显著。
    • 多模型协作评分有效(表3):相比单一Med-LLM,多模型协作提升临床评分可靠性。
    • 兼容性强:适配不同Med-LVLM架构(如LLaVA-Med++)。
      在这里插入图片描述
      在这里插入图片描述

在这里插入图片描述

4. 技术贡献与意义

  • 医学对齐新视角:首次将临床相关性作为偏好样本的权重依据,突破传统偏好优化对“简单区分”样本的依赖。
  • 多模态交互增强:结合文本幻觉注入与视觉局部噪声,同时优化文本-图像对齐和病灶区域关注。
  • 实用价值:为医学模型减少幻觉、提升诊断可靠性提供可扩展框架。

5.结论

在这项工作中,提出了一种临床感知多模态偏好优化方法,该方法在偏好优化中考虑了每个偏好样本的临床相关性。 该方法增强了 Med-LVLM 的对齐性,同时有效减少了事实错误。 具体来说,为了构建多模态偏好数据,我们通过目标 Med-LVLMs 或 GPT-4o 引入似是而非的幻觉,并在关键病变区域应用局部噪声。 此外,我们还通过 Med-LLMs 和视觉工具为数据样本分配临床相关性,然后将这些分数作为权重纳入偏好微调过程。 我们在 Med-VQA 和报告生成任务中对 MMedPO 的有效性进行了评估,结果显示其性能优越。

相关文章:

  • stride网络安全威胁 网络安全威胁是什么
  • HarmonyOs- UIAbility应用上下文
  • 产品战略之科学定价策略与模型(104页PPT)(文末有下载方式)
  • protobuf的学习
  • 算法刷题记录——LeetCode篇(6) [第501~600题](持续更新)
  • 聊聊langchain4j的Tools(Function Calling)
  • mybatis集合映射association与collection
  • 常用的遍历方法用途和运用
  • QT学习笔记1
  • 【在数轴上找最优位置,使移动距离最短】
  • 【区块链 + 商贸零售】商小萌小程序 | FISCO BCOS 应用案例
  • uniapp路由跳转导致页面堆积问题
  • 51单片机和STM32 入门分析
  • RSA后台解密报错:javax.crypto.BadPaddingException: Message is larger than modulus
  • 4.1--入门知识扫盲,ISO知识体系介绍(看一遍,协议啥的全部记住)
  • Android Zygote的进程机制
  • nginx配置txt文件点击链接后下载
  • 【ES6新特性】默认参数常见用法
  • (C语言)斐波那契数列(递归求解)
  • uniapp-x vue 特性
  • 夜读丨什么样的前程值得把春天错过
  • 梅花奖在上海|湘剧《夫人如见》竞梅,长沙文旅来沪推广
  • 俄乌直接谈判结束,乌称“毫无成果”
  • 特朗普公开“怼”库克:苹果不应在印度生产手机
  • 德州国资欲退出三东筑工,后者大股东系当地房企东海集团
  • 泉州围头湾一港区项目炸礁被指影响中华白海豚,官方:已叫停重新评估