当前位置: 首页 > news >正文

预测导管原位癌浸润性复发的深度学习:利用组织病理学图像和临床特征

文章目录

  • 研究内容
    • 目的
    • 方法
      • 数据集
      • 模型开发
      • 模型训练与评估
      • 外部验证
      • 统计分析
  • 研究结果
    • 模型性能
    • 风险分层
    • 外部验证
    • 特征重要性
  • 原文链接

原文献:Deep learning for predicting invasive recurrence ofductal carcinoma in situ: leveraging histopathologyimages and clinical features
研究背景
【 DCIS与IBC的关联】
乳腺导管原位癌(DCIS)可发展为同侧浸润性乳腺癌(IBC),但超过 75% 的 DCIS 病变如不治疗则不会发展。
【深度学习模型的探索】
为筛选低风险DCIS,利用组织学全切片图像(WSI)和临床病理数据开发了深度学习模型。

研究内容

目的

本研究旨在开发和评估深度学习模型,利用组织病理学图像(WSIs)和临床特征来预测导管原位癌(DCIS)患者在接受保乳手术治疗后的侵袭性复发风险。通过这些模型,希望能够准确识别出低风险的DCIS患者,从而避免过度治疗,同时为临床决策提供支持,优化患者的治疗方案。

方法

数据集

【数据集构建】患者选择:研究纳入了两个队列,荷兰队列和Sloane队列。荷兰队列包含558名患者,这些患者均为原发性、纯DCIS,接受保乳手术治疗,并有记录的随访数据。Sloane队列包含94名患者,用于外部验证。
【数据准备】使用苏木精-伊红(H&E)染色的组织切片,通过扫描仪获取20×放大率的数字图像。应用U-Net分割模型对WSIs进行处理,生成组织掩膜,并将WSIs分割成512×512像素的非重叠小块,去除组织含量少于30%的小块。
在这里插入图片描述

如上图所示,展示的是荷兰数据集以及Sloane数据集的处理流程。其中,荷兰数据集为左侧蓝色框的内容,sloane数据集为右侧橘色框内容。

荷兰数据集初始样本量为10090例DCIS患者(1993-2004年间接受保乳手术+放疗),
然后进行排除与筛选,从初始样本中排除了以下情况:​​全乳切除患者​​、​​非单纯性DCIS(含其他癌成分)​​、​​接受化疗/激素治疗者​​。
再分成两个子队列,分别是Groen et al. 队列:​​2,767例​​(应用了部分排除标准)Visser et al. 队列:​​2,658例​​(应用了其他排除标准)。
然后合成一个队列,结合 Groen 和 Visser 队列数据,排除​​患者重复样本、影像学伪影和病理复检病例​​。
​​剩余样本:881例​​ → 作为后续分析的基础人群。
病例-队列研究(Case-cohort)​​:117例病例 + 215例队列样本
​​病例-对照研究(Case-control)​​:200例病例 + 474例对照
​​关键修正:​​ 此部分为抽样设计,不是独立样本池。

Sloane队列起始点是n=276→ ​​英国 NHS 乳腺癌筛查项目确诊的 DCIS 患者(2003-2012年,占全英33%)​
首次确诊的原发性单纯性 DCIS
→ 仅接受保乳手术(BCS,排除全乳切除)符合条件样本:n=276 → n=749​​
排除 后续发生浸润性乳腺癌(iBC)或无随访事件者
​​剩余样本:n=158 → n=94​​(注:此缩减逻辑需结合原文)
基础临床变量完整者​​:n=506
​​扩展临床变量完整者​​:n=474
​​最终深度分析组​​:n=94(可能与特定研究终点挂钩)

模型开发

【深度学习模型】:基于瓦片监督的多实例学习(TS-MIL)框架,使用预训练的ResNet18作为编码器,结合两层多层感知机(MLP)作为解码器。模型通过弱标记(每个瓦片标记为对应患者的结局)进行训练。
在这里插入图片描述
【临床特征整合】:除了仅使用图像的模型外,还开发了整合临床特征(如年龄、DCIS分级、雌激素受体(ER)、孕激素受体(PR)和人表皮生长因子受体2(HER2)过表达等)的模型。

模型训练与评估

【训练策略】:采用嵌套k折交叉验证(k=5),在荷兰队列上进行模型训练和评估。使用Adam优化器,初始学习率为3e-5,权重衰减为5e-4。通过二值化结果变量进行训练,并采用焦点损失函数以增加难例的贡献。
【性能评估】:使用接收者操作特征曲线下面积(AUC)、负预测值(NPV)、敏感性和特异性等指标评估模型性能。通过Cox比例风险模型计算风险比(HR),并使用Kaplan-Meier曲线直观展示预测的风险组别。

外部验证

独立数据集验证:在独立的Sloane队列上进行模型验证,以评估模型的泛化能力。

统计分析

统计方法:使用scikit-learn和lifelines等库进行统计分析,包括AUC计算、HR计算和Kaplan-Meier曲线绘制。采用Hommel方法对多重检验进行校正。

研究结果

模型性能

【20年随访期】:
图像模型:AUC为0.75(95% CI:0.70-0.79),NPV为0.79(95% CI:0.74-0.83),HR为4.48(95% CI:3.41-5.88,p<0.0001)。这表明图像模型能够有效区分低风险(无复发)和高风险(侵袭性复发)患者。
在这里插入图片描述

整合模型:AUC为0.75(95% CI:0.70-0.79),NPV为0.77(95% CI:0.73-0.82),HR为4.85(95% CI:3.65-6.45,p<0.0001)。整合模型在风险分层方面表现略优于图像模型。
在这里插入图片描述

临床模型:AUC为0.57(95% CI:0.52-0.62),NPV为0.64(95% CI:0.59-0.69),HR为1.37(95% CI:1.03-1.81,p=0.041)。临床模型的预测能力相对较弱。
在这里插入图片描述

【5年随访期】:
图像模型:AUC为0.71(95% CI:0.65-0.77),NPV为0.92(95% CI:0.89-0.95),HR为4.3(95% CI:2.79-6.61,p<0.0001)。
整合模型:AUC为0.71(95% CI:0.65-0.78),NPV为0.92(95% CI:0.89-0.95),HR为4.04(95% CI:2.56-6.38,p<0.0001)。
临床模型:AUC为0.57(95% CI:0.50-0.63),NPV为0.86(95% CI:0.83-0.90),HR为1.57(95% CI:1.00-2.47)。

风险分层

【20年随访期】:

图像模型预测低风险患者中,25%发生复发,高风险患者中71%发生复发(p<0.0001)。
整合模型预测低风险患者中,25%发生复发,高风险患者中76%发生复发(p<0.0001)。
临床模型预测低风险患者中,35%发生复发,高风险患者中43%发生复发(p=0.066)。

【5年随访期】:

图像模型预测低风险患者中,9%发生复发,高风险患者中32%发生复发(p<0.0001)。
整合模型预测低风险患者中,9%发生复发,高风险患者中32%发生复发(p<0.0001)。
临床模型预测低风险患者中,12%发生复发,高风险患者中18%发生复发。

外部验证

在Sloane队列(n=94)中进行外部验证时,由于样本量小、随访时间短以及WSI质量不佳,模型的泛化能力受到限制。
图像模型倾向于将患者分类为高风险,导致无法计算有意义的指标。
临床模型在5年随访期内的HR为1.23(95% CI:0.62-2.44,p=0.56),未显示出显著的风险分层能力。

特征重要性

在临床模型中,高分级、HER2和COX-2表达是风险增加的因素,而较高的诊断年龄则降低了风险。ER、p16和PR的预测风险影响较小。
对于图像模型,通过在WSIs上可视化每个瓦片的预测类别,发现相邻组织区域具有相似的分类,但未发现一致的组织形态结构。

原文链接

https://mp.weixin.qq.com/s/xxTyVxFMQ5gZkDsR_Hm1NA

http://www.dtcms.com/a/285595.html

相关文章:

  • Nand2Tetris(计算机系统要素)学习笔记 Project 3
  • sqli(1-8)
  • ASP.NET Core Web API 内存缓存(IMemoryCache)入门指南
  • Pytorch下载Mnist手写数据识别训练数据集的代码详解
  • PyTorch新手实操 安装
  • 填坑 | React Context原理
  • SpringMVC + Tomcat10
  • 小结:Spring MVC 的 XML 的经典配置方式
  • 计算机视觉与机器视觉
  • Tensorflow小白安装教程(包含GPU版本和CPU版本)
  • C++并发编程-13. 无锁并发队列
  • div和span区别
  • 【Python】python 爬取某站视频批量下载
  • 前端实现 web获取麦克风权限 录制音频 (需求:ai对话问答)
  • 20250718【顺着234回文链表做两题反转】Leetcodehot100之20692【直接过12明天吧】今天计划
  • AugmentCode还没对个人开放?
  • STL—— list迭代器封装的底层讲解
  • 71 模块编程之新增一个字符设备
  • Proto文件从入门到精通——现代分布式系统通信的基石(含实战案例)
  • 标题 “Python 网络爬虫 —— selenium库驱动浏览器
  • 光伏电站工业通信网络解决方案:高可靠工业通信架构与设备选型
  • 开源短链接工具 Sink 无需服务器 轻松部署到 Workers / Pages
  • 西门子工业软件全球高级副总裁兼大中华区董事总经理梁乃明先生一行到访庭田科技
  • ArcGIS Pro+PS 实现地形渲染效果图
  • WinDbg命令
  • FastAdmin框架超级管理员密码重置与常规admin安全机制解析-卓伊凡|大东家
  • 本地部署DeepSeek-R1并打通知识库
  • 数字地与模拟地隔离
  • 【C语言】深入理解柔性数组:特点、使用与优势分析
  • Cursor替代,公测期间免费使用Claude4