基于层次建模与交叉注意力融合的医学视觉问答系统(HiCA-VQA)详解
论文地址:https://arxiv.org/pdf/2504.03135
一、论文结构概述
这篇论文提出了一种针对医学视觉问答(Medical Visual Question Answering, Med-VQA)的层次化建模框架 HiCA-VQA,旨在解决现有方法在层次化语义建模和跨模态融合上的不足。以下是论文的核心结构:
-
引言
- 介绍了Med-VQA的临床价值及现有问题:传统方法忽略层次化诊断逻辑,跨模态融合依赖全局自注意力导致局部语义丢失。
- 提出HiCA-VQA的两大创新:分层提示模块和交叉注意力融合模块。
-
相关工作
- 回顾了医学预训练模型(如PubMedCLIP、RadBERT)、层次化VQA任务(如hi-VQA)及上下文对齐方法。
-
方法