文献解读-病理区域重要性标记+细胞类型形态相互作用可解释性分析
期刊: Advanced Science; IF: 14.1( Q1)
研究概述
该研究提出了一种可解释的多模态人工智能胚系基因检测模型(Multimodal Artificial Intelligence Germline Genetic Testing, MAIGGT),通过整合全切片病理图像(WSI)的肿瘤微环境特征与电子病历(EHR)的临床表型,实现胚系BRCA1/2突变的高精度预测。
数据
纳入中国医学科学院肿瘤医院、烟台毓璜顶医院、哈尔滨医科大学临床医院三个中心的独立队列,共计634例乳腺癌患者的2,279张WSI图像及相应的基因检测报告和电子病历中的临床特征。
训练集:374患者1575 WSIs;内部测试集:106患者420 WSIs;外部测试集1:133患者205 WSIs;外部测试集2:21患者78 WSIs
研究方法
WSI 在 20×放大倍数下被分割成 224 × 224 和 512 × 512 像素的非重叠块。面积小于 50%的组织块被排除在分析之外。
肿瘤分割模型以在 ImageNet 上预训练的 ResNet50 作为骨干,并在乳腺癌语义分割(BCSS)数据集标记的不同尺寸的补丁上进行训练,以实现多尺度肿瘤区域分割。其中,超过 25%肿瘤面积的块被分类为肿瘤块,其余为非肿瘤块。
为了降低计算复杂度,采用了一种基于聚类的采样策略,从肿瘤区域提取具有不同组织形态学特征的图像块。使用 CTransPath [ github:https://github.com/Xiyue-Wang/TransPath; 文章:https://pubmed.ncbi.nlm.nih.gov/35952419/],一种基于卷积神经网络和 SwinTransformer 的病理基础模型,为每个图像块生成 768 维的特征表示。采用 K-means 算法将图像块聚类成 Nc 个簇,并从每个簇中随机采样 Ns 个图像块,每个全切片图像(WSI)最终得到 Nc × Ns 个图像块。与随机采样相比,这种基于聚类的采样方法能更全面地从 WSI 中捕获信息,并降低遗漏具有较少见组织形态学特征的显著图像块的风险。
WISE-BRCA框架由嵌入层、多尺度 Transformer 模块和融合分类头三部分组成,同时引入交叉注意力机制学习size为224和512的patch特征。
研究结果
模型性能评估
基于病理切片的WISE-BRCA模型在四折交叉、内部测试集、外部测试集的AUC效能(Slide层面和患者层面)分别可见图B、C。
图E左图展示了每个队列中落在该分数区间的BRCA1/2携带者的比例,表明WISE-BRCA模型能够有效地将BRCA1/2突变携带者分配到更高的预测分数区间。图E右图则用统计学上严谨的比值比分析进一步量化了这种关联,证实了随着模型预测分数升高,患者携带gBRCA1/2突变的可能性呈指数级增长,并且这种关联在多个独立队列中都高度显著且一致。
模型可靠性分析及亚组分析
首先评估了切片数量对模型性能的影响。图A展示了CHCAMS 队列中 WSI 数量分布及不同 WSI 数量患者百分比。图B表明随着每位患者切片数量的增加从 1 到≥5,模型性能显著提高,发现集中的 AUC 从 0.786 增加到 0.906,测试集中的 AUC 从 0.780 增加到 0.891,YYH 队列中的 AUC 从 0.776 增加到 1.000,HMUCH 队列中的 AUC 从 0.778 增加到 0.873。图C-F则表明了在不同亚组中,模型的性能。
模型可解释性分析
基于**集成梯度(IG)的归因方法(Integrated Gradients (IG)‐based attribution method)**计算不同尺寸patches的梯度值。梯度图揭示了 BRCA1/2 突变携带者与未携带者 WSI 中的突变相关背景特征差异(图A)。进一步我们从 CHCAMS 队列中非携带者和携带者的 400 个 WSI 中提取并定量分析了对于胚系 BRCA1/2 预测至关重要的代表性patch。具体而言,将每个图像块的 IG 梯度值进行平均,以获得 WSI 的宏观归因结果。在图像块级别,从预测概率最高的 200 名 BRCA1/2 突变携带者中选取 200 个 WSI,从预测概率最低的 200 名非携带者中选取 200 个 WSI。然后从 BRCA1/2 突变携带者中选取梯度值最高的前 10 个图像块,从非携带者中选取梯度值最低的前 10 个图像块,进行形态学和空间交互分析。
对于这些代表性patch,我们首先基于Hovernet预训练模型分割并识别了细胞,进一步从细胞类型占比(图B-C)、细胞核形态特征(图D)和细胞间相互作用(图E-G)三个层面对模型进行了可解释性分析。结论如下:
-
BRCA1/2 突变携带者比非携带者显示出免疫细胞(P < 0.001)和非肿瘤基质细胞(P < 0.001)显著富集。此外,BRCA1 突变携带者的免疫细胞密度显著高于 BRCA2 突变携带者(P < 0.05)
-
非携带者细胞具有较大面积、周长同质性和较小对比度,表明细胞核相对较大且异质性较低。相反,来自 BRCA1/2 突变携带者的细胞具有更大的 ASM 和更小的面积(P < 0.001),表明细胞排列更紧密。与 BRCA1 突变携带者相比,BRCA2 突变携带者的细胞也显示出更大的偏心率(P < 0.001),表明更具侵袭性的生长模式。
-
BRCA1/2 突变携带者,尤其是 BRCA1,显示出免疫细胞相关相互作用显著富集(P < 0.001),这些相互作用特征为丰富的免疫细胞浸润和炎症反应。相比之下,非携带者表现出较少的免疫浸润,但更频繁的基质-肿瘤细胞相互作用。
其具体理解和实现可参考另一篇文章 https://blog.csdn.net/qq_44505899/article/details/153208200?spm=1001.2014.3001.5501。
基于组织学图像和电子健康记录的 MAIGGT 联合预测 BRCA1/2 突变
在 WISE‐BRCA 的基础上,MAIGGT 框架通过统一的潜在表示空间,将学习到的高级组织病理学特征表示与来自电子健康记录的临床表型相结合构建最终模型。模型性能可见图C和D。
可学习点
- 模型框架
- 集成梯度(IG)的归因方法(Integrated Gradients (IG)‐based attribution method)
- 病理切片解释方法
参考文献
Yang, Zijian, Changyuan Guo, Jiayi Li, Yalun Li, Lei Zhong, Pengming Pu, Tongxuan Shang et al. “An Explainable Multimodal Artificial Intelligence Model Integrating Histopathological Microenvironment and EHR Phenotypes for Germline Genetic Testing in Breast Cancer.” Advanced Science (2025): e02833.
Github: https://github.com/ZhoulabCPH/MAIGGT/tree/master