当前位置: 首页 > news >正文

大队列CT胰腺癌PANDA 模型 医生结合AI后,病灶检测灵敏度提升 8.5%,胰腺癌识别灵敏度提升 20.5%,住院医师性能接近专家水平


胰腺癌(PDAC)因早期难发现、预后极差被称为“癌王”,多数患者确诊时已处于晚期,错失手术机会。近期,《Nature Medicine》发表的一项研究显示,中国团队研发的AI模型PANDA可通过非增强CT精准检测胰腺癌,为大规模筛查提供了新工具。

作者提供了在线网站:panda.medofmind.com 演示模型在几个样本上的效果

一、数据来源:覆盖多场景、多中心,兼顾多样性与可靠性

为确保模型的泛化能力,研究团队构建了多维度数据集:

  • 训练集:3208名患者(含胰腺癌、良性病变及健康对照),来自上海胰腺疾病研究所(SIPD),均经病理确诊或2年随访验证。
  • 多中心验证集:6239名患者,涵盖中国、中国台湾地区及捷克的10个医疗中心,包含不同种族、成像设备及临床场景数据。
  • ChiCTR2200064645数据集:20530名连续患者,来自体检、急诊、门诊、住院4类场景,覆盖常规临床流程中的各类人群。
  • 胸部CT数据集:492名患者,验证模型在胸部CT(胰腺部分扫描)中的可行性。

二、数据处理

非增强CT中,胰腺癌与正常组织的灰度差异极小,直接标注病灶几乎不可能。研究团队通过跨模态信息迁移破解这一难题,具体步骤如下:

  1. 双模态数据对齐
    为3208名训练集患者同时采集非增强CT和增强CT(同一检查时段),利用刚性配准算法(基于解剖标志点,如脊柱、血管)将两组图像精准对齐,确保像素级空间对应。

  2. 专家标注迁移
    由5名胰腺影像专家在增强CT上手动标注:1.胰腺整体区域;2.病灶边界(含胰腺癌及7类良性病变);3.病灶类型(病理确诊)。通过配准矩阵,将这些标注“映射”到非增强CT上,生成非增强CT的伪标注(标注精度通过Dice系数验证,≥0.85)。

  3. 半监督胰腺分割优化
    仅靠迁移标注仍不足,团队引入半监督学习:用1000例公开数据集(如TCIA)的胰腺标注初始化模型,再用3208例训练集的伪标注进行微调,最终胰腺分割Dice系数达0.91,为后续病灶检测提供精准“感兴趣区域”。

  4. 场景适配增强
    针对胸部CT可能仅部分扫描胰腺的问题,设计动态裁剪增强:随机裁剪非增强CT的胰腺区域(裁剪比例30%-70%),模拟胸部CT的“不全扫描”场景,迫使模型学习胰管扩张等间接征象。

三、PANDA模型构建

胰腺癌检测的核心难题在于:非增强CT中病灶特征模糊,且需兼顾高灵敏度(不漏诊)与高特异性(少误诊)。PANDA模型的构建围绕这一痛点,通过“数据处理-多阶段建模-临床适配”三层设计

阶段1:胰腺定位(nnU-Net)【从CT种找到胰腺位置】

采用低分辨率nnU-Net (https://github.com/MIC-DKFZ/nnUNet) (3D U-Net 变体),输入为全腹CT(512×512×30层),输出胰腺的三维分割掩码。以标注的胰腺区域为真值,用Dice损失优化(聚焦边缘像素),同时加入“解剖约束”(胰腺与脊柱、十二指肠的相对位置),避免分割偏移。

阶段2:是否有病灶(多任务CNN)

以全分辨率nnU-Net 为 backbone,含双分支:

  • 分割分支(seg):输出病灶的像素级掩码(区分胰腺正常组织与病灶);

  • 分类分支(cls):对分割分支提取的5级特征图做全局最大池化,拼接后通过全连接层输出“有病灶/无病灶”概率。

  • 损失函数:联合优化分割与分类任务

    L=Lseg+0.3×Lcls\mathcal{L} = \mathcal{L}_{seg} + 0.3\times\mathcal{L}_{cls}L=Lseg+0.3×Lcls

    其中,Lseg\mathcal{L}_{seg}Lseg为Dice损失+交叉熵损失(平衡前景/背景),Lcls\mathcal{L}_{cls}Lcls为二分类交叉熵损失。

  • 特异性调优:训练中通过动态阈值调整,在验证集上强制模型特异性达99%(即100例健康人中最多1例假阳性),方法是:当验证集特异性低于99%时,增加分类损失权重,倒逼模型“保守判断”。

阶段3:病灶鉴别诊断(记忆Transformer)

对检测到的病灶,进一步分类为胰腺癌(PDAC)或7类良性病变(如IPMN、慢性胰腺炎等),辅助临床决策。

  • 模型结构:双路径记忆Transformer,融合局部细节与全局特征:
    • UNet路径:输入胰腺区域裁剪图像(160×256×40层),输出5级特征图(捕捉病灶纹理、边界);
    • 记忆路径:初始化200个“记忆tokens”(320通道),通过交叉注意力与UNet特征交互,自动编码不同病灶的典型特征(如胰腺癌的“边界模糊”、IPMN的“胰管扩张”)。
  • 注意力机制:每级UNet特征与记忆tokens做交叉注意力(聚焦病灶关键区域),记忆tokens间做自注意力(整合全局特征),最终通过分类头输出8类概率。
  • 细分类优化:针对样本不平衡(如胰腺癌占比高,SPT罕见),采用“加权交叉熵损失”(罕见类权重×5),提升小样本类型的识别精度。

四、进一步优化模型:PANDA Plus

现实场景中,CT设备、患者人群差异大,且存在“未见过”的病变(如急性胰腺炎)。团队通过多种增量学习实现模型进化:

  1. 硬示例挖掘
    从16420例真实世界数据(RW1)中筛选出76例假阳性(如peri-胰腺病变)和28例假阴性(如<10mm囊肿),作为“难例集”。

  2. 增量微调
    冻结PANDA主干网络,仅微调分类头和记忆tokens,用“知识蒸馏损失”(约束新模型与原模型输出差异)避免遗忘旧知识,同时学习新病变特征(如急性胰腺炎的“胰腺肿大”)。

  3. 特异性跃升
    PANDA Plus在4110例RW2数据中,特异性从99.0%提升至99.9%(每1000例仅1例假阳性),且新增对急性胰腺炎的检测灵敏度达90.0%。

五、模型结果:精度超专家,覆盖多场景,临床价值显著

内部与外部验证的核心性能

模型在多中心数据中表现稳定,对早期 / 微小病灶检测能力优异。

与放射科医生的对比及 AI 辅助效果

PANDA 性能超越人工,且能显著提升医生诊断能力。

  • abc图(AI vs 医生):33 名医生(含专家、普通放射科医生、住院医师)的 ROC 曲线均在 PANDA 下方。PANDA 识别胰腺癌的灵敏度比医生平均高 34.1%,特异性高 6.3%;住院医师单独诊断时灵敏度甚至低至 16.7%-35.2%。
  • de中图(AI 辅助前后):医生结合 PANDA 后,病灶检测灵敏度提升 8.5%,胰腺癌识别灵敏度提升 20.5%,住院医师性能接近专家水平。
  • f图:展示 AI 检出的早期胰腺癌和自身免疫性胰腺炎,均被医生漏诊,体现 AI 对细微特征的敏感性。

模型可利用胸部 CT(非专门扫描胰腺)实现胰腺癌筛查,拓展应用场景

模型在实际临床流程中安全有效,假阳性极低

  • 模型性能
    • 16420 例真实数据(RW1)中,病灶检测特异性 99.0%,优化后的 PANDA Plus 在 4110 例(RW2)中特异性达 99.9%(每 1000 人仅 1 例假阳性);
    • 胰腺癌识别阳性预测值(PPV)达 68.9%,意味着 AI 提示的 “可疑病例” 中,近 70% 确为病变,减少不必要的随访。
  • 漏诊案例:PANDA 检出 26 例被常规诊断遗漏的病灶(含 1 例胰腺癌、1 例神经内分泌肿瘤),其中 1 例经手术治愈,证明其临床价值
http://www.dtcms.com/a/319631.html

相关文章:

  • 补充一种激活函数:GeGLU
  • 关于AI应用案例计算机视觉、自然语言处理、推荐系统和生成式AI四大领域的详细技术分析。
  • 数学建模——粒子群算法
  • Gradle 全解析:Android 构建系统的核心力量
  • JavaScript构建工具
  • CSS overscroll-behavior:解决滚动穿透的 “边界控制” 专家
  • 《Day3-PyTorch 自动微分入门:从计算图到梯度下降的实践指南》
  • Redis中间件(三):Redis存储原理与数据模型
  • Dokcer创建中间件环境
  • LeetCode:347.前K个高频元素
  • 手写数字识别实战 - 从传统机器学习到深度学习
  • 13-netty基础-手写rpc-消费方生成代理-05
  • Qt——入门
  • 数据赋能(386)——数据挖掘——迭代过程
  • Spring、Spring MVC、MyBatis 和 Spring Boot的关系
  • Ethereum:如何优雅部署 NPM 包中的第三方智能合约?
  • LoadBalancingSpi
  • Beelzebub靶机
  • MyCAT实战环节
  • 动手学深度学习13.10. 转置卷积 -笔记练习(PyTorch)
  • 在新建word中使用以前文件中的列表样式
  • Python调用Shell指令的方法与实践
  • 深海中的类型晨曦
  • Jmeter使用第一节-认识面板(Mac版)
  • 初识C++类的6个默认成员函数
  • 以复合赋值运算符(op=)优化单独运算符(op)的实现
  • BKP 与 RTC 时钟
  • 从Text2SQL到Text2Metrics:衡石指标管理技术跃迁
  • 【Bluedroid】蓝牙音频接收端活动设备切换机制深度解析(sink_set_active_device)
  • 密码学侧信道攻击(Side-channel Attack):从物理泄露中窃取密钥