视觉语言模型的空间推理缺陷——AI 在医学扫描中难以区分左右
概述
一项新研究发现,像ChatGPT这样的AI图像模型可能会误读翻转或旋转的解剖结构,增加诊断中出现危险错误的风险。测试表明,这些模型在医学扫描中常常无法完成基本的空间推理——它们会猜测器官应该在的位置,而不是实际观察图像。或许更广泛受到关注的是,这项研究表明,这些模型可能根本没有阅读你上传的PDF或查看你的图像。
任何经常向ChatGPT等主流语言模型上传PDF内容等数据的人都知道,大型语言模型(LLMs)并不总是一定会阅读或仔细查看你提供的材料;相反,它们很多时候会根据你上传材料时在提示词中所写的内容,对材料做出假设。
很难让语言模型承认它的答案是来自先验知识、元数据或一般性假设,而非所提供的内容。 来源:https://chatgpt.com
其中一个可能的原因是,通过认为上传的材料是“多余的”,并依靠文本提示词来调用系统的先验知识,从而加快回复速度——完全避开上传的内容,同时减少网络流量。
另一个原因是资源节约(尽管如果这是事实,提供商似乎不太可能披露),即大型语言模型从聊天中早期交流中提取的现有元数据被用作进一步回答的基础,即使这些交流和元数据没有包含足够的信息来支持这一目的。
左边?右边?
无论当前一代大型语言模型的注意力持续时间和聚焦能力存在差异的原因是什么,在某些情况和场景下,猜测是极其危险的。其中一种情况是,当所涉及的AI被要求提供医疗服务时,例如筛查或放射材料的风险评估。
本周,来自德国和美国的研究人员发布了一项新的研究,考察了包括ChatGPT-4o在内的四个主流视觉-语言模型在识别医学扫描中器官位置时的效能。
令人惊讶的是,尽管这些基础模型在这方面代表了最先进的水平,但大多数时候其成功率并不比纯随机猜测高——显然是因为它们无法充分脱离已训练的人体解剖学知识,无法实际查看所呈现的图像,而是从训练数据中寻找现成的先验知识来轻易作答。
研究人员发现,当需要考虑的部位除了被命名外,还通过其他指标(如点和字母数字序列标记)来表示时,接受测试的大型语言模型表现明显更好;而当查询中完全不提及器官或解剖结构时,模型的表现最佳:
模型的成功率各不相同,当模型依赖训练数据的能力被削弱,被迫专注于眼前的数据时,成功率会提高。 来源:https://wolfda95.github.io/your_other_left/
该论文指出*:
“最先进的视觉-语言模型(VLMs)的语言组件中已经嵌入了强大的先验解剖学知识。换句话说,它们‘知道’在标准人体解剖学中,解剖结构通常位于何处。
“我们假设,视觉-语言模型的答案往往基于这种先验知识,而非分析实际的图像内容。例如,当被问及肝脏是否在胃的右侧时,模型可能在不检查图像的情况下就给出肯定回答,仅仅依赖于所学的常识——肝脏通常位于胃的右侧。
“在实际位置偏离典型解剖模式的情况下,如 situs inversus(内脏反位)、术后改变或肿瘤移位等,这种行为可能导致严重的误诊。”
为了在未来的研究中缓解这一问题,作者们开发了一个旨在解决该问题的数据集。
对于许多关注医疗AI发展的读者来说,这篇论文的发现可能令人惊讶,因为放射学很早就被认为是最有可能通过机器学习实现自动化的工作之一。
这项新研究名为《你的另一个左边!视觉-语言模型无法识别医学图像中的相对位置》,由乌尔姆大学两个学院以及美国Axiom Bio公司的七位研究人员共同完成。
方法与数据
研究人员旨在回答四个问题:最先进的视觉-语言模型能否正确判断放射图像中的相对位置;使用视觉标记是否能提高它们在这项任务中的表现;与实际图像内容相比,它们是否更依赖先验解剖学知识;以及当剥离所有医疗背景时,它们在相对定位任务中的表现如何。
为此,他们精心构建了医学影像相对定位(MIRP)数据集。
尽管大多数现有的CT或MRI切片视觉问答基准都包含解剖学和定位任务,但这些较早的数据集忽略了确定相对位置这一核心挑战,使得许多任务仅依靠先验医学知识就能解决。
MIRP的设计旨在通过测试解剖结构之间的相对位置问题、评估视觉标记的影响以及应用随机旋转和翻转来阻止对所学常识的依赖,从而解决这一问题。该数据集侧重于腹部CT切片,因为它们在放射学中具有复杂性和普遍性。
MIRP中“是”和“否”的答案数量相等,每个问题中的解剖结构可选择性地进行标记以确保清晰。
研究测试了三种视觉标记:白色方框中的黑色数字、白色方框中的黑色字母以及红色和蓝色的点:
MIRP中使用的各种视觉标记。 来源:https://arxiv.org/pdf/2508.00549
该数据集来源于现有的“颅外”(BTCV)和“腹部多器官分割”(Abdominal Multi-Organ Segmentation,AMOS)数据集。
AMOS数据集中的带注释切片。 来源:https://arxiv.org/pdf/2206.08023
“全分割器”(TotalSegmentator)项目被用于从体积数据中提取解剖平面图像:
“全分割器”中可用的104种解剖结构中的一部分。 来源:https://arxiv.org/pdf/2208.05868
随后,使用SimpleITK框架获取轴向图像切片。
为了生成问答对,“挑战”图像中的解剖结构位置必须至少相距50像素,且尺寸至少是标记的两倍。
测试
接受测试的四个视觉-语言模型分别是GPT-4o、Llama3.2、Pixtral和深度求索(DeepSeek)的JanusPro。
研究人员依次测试了他们的四个研究问题,第一个问题(Q1)是“当前顶级的视觉-语言模型能否准确判断放射图像中的相对位置?” 针对这一问题,研究人员使用标准问题格式,在未处理、旋转或翻转的CT切片上对模型进行了测试,例如“左肾在胃的下方吗?”
结果(如下所示)显示,所有模型的准确率都接近50%,表明其表现处于随机水平,且在没有视觉标记的情况下无法可靠地判断相对位置:
在MIRP基准(RQ1-RQ3)和消融数据集(AS)上使用基于图像的评估得出的所有实验的平均准确率。
为了测试视觉标记是否能帮助视觉-语言模型判断放射图像中的相对位置,研究重复了实验,使用带有字母、数字或红蓝点注释的CT切片;并且在这里,问题格式经过调整以引用这些标记——例如,“左肾(A)在胃(B)的下方吗?”或“左肾(红色)在胃(蓝色)的下方吗?”
结果显示,当使用字母或数字标记时,GPT-4o和Pixtral的准确率有小幅提升,而JanusPro和Llama3.2几乎没有受益,这表明仅靠标记可能不足以显著提高性能。
所有实验使用基于图像的评估得出的准确率。对于RQ2、RQ3和AS,结果显示了每个模型表现最佳的标记类型:GPT-4o为字母,Pixtral、JanusPro和Llama3.4为红蓝点。
为了回答第三个问题“在判断放射图像中的相对位置时,视觉-语言模型是否更优先考虑先验解剖学知识而非视觉输入?” 作者们研究了视觉-语言模型在判断放射图像中的相对位置时,是否更依赖先验解剖学知识而非视觉证据。
在对旋转或翻转的CT切片进行测试时,GPT-4o和Pixtral给出的答案往往与标准解剖位置一致,而非反映图像中所显示的内容。在基于解剖学的评估中,GPT-4o的准确率超过75%,但在基于图像的评估中仅达到随机水平。
从提示词中移除解剖学术语,仅使用视觉标记,迫使模型依赖图像内容,从而带来了显著的性能提升。使用字母标记时,GPT-4o的准确率超过85%;使用点标记时,Pixtral的准确率超过75%。
四个视觉-语言模型在判断医学图像中解剖结构相对位置方面的比较——这是临床应用的关键要求。处理普通图像时,模型表现处于随机水平(RQ1);使用视觉标记时,仅略有提升(RQ2)。当移除解剖学名称,模型必须完全依赖标记时,GPT-4o和Pixtral的准确率有显著提高(RQ3)。结果显示了每个模型表现最佳的标记类型。
这表明,虽然这两个模型都能利用图像数据完成任务,但当给出解剖学名称时,它们倾向于默认使用所学的解剖学先验知识——这一模式在JanusPro或Llama3.2中并未清晰显现。
尽管我们通常不报道消融研究,但作者们通过这种方式回答了第四个也是最后一个研究问题。因此,为了测试在没有任何医疗背景的情况下的相对定位能力,研究使用带有随机放置标记的纯白色图像,并提出简单的问题,例如“数字1在数字2的上方吗?” Pixtral在使用点标记时结果有所改善,而其他模型的表现与它们在RQ3中的得分相近。
JanusPro,尤其是Llama3.2,即使在这种简化的场景中也表现不佳,这表明它们在相对定位方面存在潜在的弱点,且不仅限于医疗图像。
作者观察到,GPT-4o在使用字母标记时表现最佳,而Pixtral、JanusPro和Llama3.2在使用红蓝点标记时得分更高。GPT-4o总体表现最佳,在开源模型中,Pixtral领先。
结论
就我个人而言,这篇论文引起我的兴趣,与其医学意义相比,更多是因为它揭示了当前最先进的大型语言模型一个最未被充分报道但却十分根本的缺点——即,除非你精心呈现材料,否则只要能避开,它们就不会阅读你上传的文本或查看你呈现的图像。
此外,研究表明,如果你的文本提示词以任何方式解释了所提交的辅助材料是什么,大型语言模型往往会将其视为一个“目的论”的例子,并会基于先验知识对其做出许多假设,而不是研究和思考你所提交的内容。
实际上,在目前的状态下,视觉-语言模型很难识别“异常”材料——这是诊断医学中最基本的技能之一。虽然可以逆转逻辑,让系统寻找异常值而非分布内的结果,但该模型需要经过精心的整理,以避免无关或虚假的例子淹没有效信号。