乳腺癌病理知识
文章目录
- 一、乳腺癌基础知识
- 1.1、临床知识(决定治疗选择和预后框架)
- 1.1.1、分子分型与受体状态(核心预后变量)
- 1.1.2、TNM分期(肿瘤进展量化)
- 1.1.3、治疗方式(干预措施影响预后)
- 1.1.4、预后指标(模型输出目标)
- 1.2、影像知识
- 1.2.1、多模态影像技术
- 1.2.2、关键建模思路
- 1.2.3、MRI核心序列及其临床意义
- 1.2.4、病灶(Lesion)与ROI(Region of Interest)
- 1.2.5、MRI在预后评估中的具体应用(重要)
- 1.3、病理知识
- 1.3.1、组织学特征(基础分类)
- 1.3.2、免疫标志物(必选特征)
- 1.3.3、新兴病理技术
- 1.3.4、HE染色:病理诊断的“金标准”
- 1.3.5、WSI(全切片数字化图像)
- 二、WSI处理
- 2.1、WSI数据:全切片图像与多尺度处理
- 2.2、处理特征
- 2.3、推荐数据集
- 三、MRI处理
- 3.1、MRI数据:DICOM格式与预处理挑战
- 3.2、预处理需求与技术方案
- 3.3、处理目标
- 四、病理报告
- 4.1、数据来源与挑战
- 4.2、信息抽取技术路线
- 4.3、处理目标及方法
- 五、多模态融合
- 5.1、早期融合(数据级融合)
- 5.2、中期融合(特征级融合)
- 5.3、晚期融合(决策级融合)
- 5.4、混合融合与深度学习架构
- 六、预后模型(生存分析模型)
- 6.1、生存分析模型
- 6.2、结果分析
一、乳腺癌基础知识
1.1、临床知识(决定治疗选择和预后框架)
1.1.1、分子分型与受体状态(核心预后变量)
- 激素受体(ER/PR)
阳性定义:ER或PR表达≥1%的肿瘤细胞(免疫组化)。
预后意义:阳性患者内分泌治疗敏感,10年复发率显著低于阴性者(Luminal A型复发率<10%)。
- HER2的状态
检测标准:免疫组化(IHC 3+为阳性;IHC 2+需FISH验证)。
预后意义:HER2阳性型侵袭性强,但靶向治疗(如曲妥珠单抗)显著改善生存;未经治疗者预后差于Luminal型。
- 分子分型(基于受体组合)
1.1.2、TNM分期(肿瘤进展量化)
- T(肿瘤大小):T1(≤2cm)→ T4(侵犯胸壁/皮肤)。
- N(淋巴结转移):N0(无转移)→ N3(锁骨上淋巴结转移)。
- M(远处转移):M0(无转移)→ M1(有转移)
- 模型价值:分期组合(如Ⅱ期=T1-2N1M0)是生存率预测的强特征,每增加1枚淋巴结转移,复发风险+10–15%。
1.1.3、治疗方式(干预措施影响预后)
- 手术:保乳手术(需联合放疗) vs 全乳切除。
- 药物:
内分泌治疗(仅对ER/PR+有效)。
靶向治疗(抗HER2药物)。
免疫治疗(PD-1抑制剂对TNBC有效)。
- 模型价值:需记录具体方案(如“新辅助化疗+靶向”),治疗响应(如病理完全缓解pCR)是独立预后因子
1.1.4、预后指标(模型输出目标)
-
总生存期(OS):诊断至任何原因死亡的时间(金标准)。适用:评估整体治疗效益。
-
无病生存期(DFS):治疗结束至复发/转移的时间。适用:早期癌疗效评估
-
特殊场景:TNBC关注无远处转移生存期(DMFS)(因易早期转移)适用:TNBC预后核心指标
1.2、影像知识
1.2.1、多模态影像技术
1.2.2、关键建模思路
- 多模态融合:如将MRI的血流动力学特征 + 病理图像的细胞特征融合,提升预测精度(参考双流注意力机制)。
- 治疗响应量化:新辅助化疗前后肿瘤体积变化(MRI测量)→ 预测pCR(病理完全缓解)。
1.2.3、MRI核心序列及其临床意义
MRI通过不同序列提供肿瘤的形态+功能信息,以下是乳腺癌诊断的四大核心序列:
序列类型 | 病灶特征 | 模型应用价值 |
---|---|---|
T1加权像(T1WI) | 脂肪呈高信号,肿瘤呈中等信号;抑脂后肿瘤更清晰 | 定位肿瘤位置,识别出血/坏死区(坏死提示侵袭性) |
T2加权像(T2WI) | 水肿/坏死呈高信号,黏液癌显著高亮 | 区分肿瘤亚型(如黏液癌T2高信号+高ADC值) |
弥散加权成像(DWI) | 恶性肿瘤扩散受限→高信号,ADC值降低(<1.0×10⁻³mm²/s) | ADC值量化肿瘤细胞密度,是独立预后因子(低ADC≈高恶性) |
动态增强(DCE-MRI) | 恶性:快进快出(廓清型曲线);良性:缓慢强化 | 时间-信号曲线(TIC)类型可预测分子分型(如TNBC常快速强化) |
1.2.4、病灶(Lesion)与ROI(Region of Interest)
病灶类型
- 肿块型(Mass):三维占位病变
恶性征象:边缘毛刺、环形强化、内部坏死(T2信号混杂) - 非肿块强化(NME):区域性/段性分布
恶性征象:导管样或树枝状强化(提示导管原位癌) - 点状强化(Focus):<5mm的孤立点
恶性概率<2%,常忽略(除非多发簇状)
ROI定于与模型价值
- ROI是什么:医生在图像上勾画的目标区域(如肿瘤核心、淋巴结)
- 为什么重要:
定量分析基础:在ROI内计算ADC均值、强化率等数值特征
自动化分析关键:AI模型需先检测ROI,再提取特征(如ViT模型自动勾画ROI准确率>97%)
异质性评估:同一肿瘤内不同ROI可能反映亚克隆(如坏死区vs.高增殖区)
1.2.5、MRI在预后评估中的具体应用(重要)
分子分型预测
- 三阴性乳腺癌(TNBC):T2值升高(组织坏死)、DWI-ADC值低(高细胞密度)、早期快速强化
- Luminal型:T1值较低(激素受体阳性)、强化较缓慢
治疗响应评估
- 新辅助化疗后:
MRI测量肿瘤体积缩小率(>90%提示pCR/病理完全缓解)
ADC值变化:有效治疗→肿瘤细胞坏死→ADC值升高
淋巴结转移检测
- 转移淋巴结特征:短径>1cm、皮质增厚、DWI高信号
- 模型可量化转移淋巴结数量(每增加1枚,5年生存率↓10%)
建模建议
- 输入特征优先级:
必选:DCE-MRI曲线类型、ADC值、肿瘤体积、强化率
高阶:T2值(预测TNBC)、ROI直方图特征(如T1标准差反映异质性)
- 多模态融合策略:
影像+病理报告:MRI特征(如环形强化) + 病理Ki-67指数 → 构建增殖活性预测模型
影像+基因:ADC值 +基因表达数据 → 预测化疗耐药性
- ROI自动化工具:使用Vision Transformer(ViT)自动勾画ROI,减少人工误差
1.3、病理知识
1.3.1、组织学特征(基础分类)
- 类型:导管癌(70%)> 小叶癌(侵袭性较低)。
- 分级(Nottingham系统):
-
- 评分项:腺管形成(1-3分)、核多形性(1-3分)、核分裂数(1-3分)。
-
- G3级(8–9分):复发风险比G1级高30%。
1.3.2、免疫标志物(必选特征)
- Ki-67指数:≥30%提示高增殖,常见于Luminal B/TNBC,DFS缩短。
- TILs(肿瘤浸润淋巴细胞):
-
- sTILs(间质区):密度高→预后差(HR=1.6–2.5)。
-
- tTILs(肿瘤内):独立预后因子(HR=1.2)。
-
- 空间分布:TILs与肿瘤细胞的共定位模式(ML可量化)比单纯密度更预测
1.3.3、新兴病理技术
- 数字病理分析:
全切片图像(WSI)分割肿瘤/基质区域 → 自动计算TILs密度。 空间特征提取:如“TILs-肿瘤细胞相邻距离”(需图神经网络)。
- 多组学整合:
基因表达(如Oncotype DX) + 病理图像 → 构建跨尺度预后模型(参考降噪自编码器)。
1.3.4、HE染色:病理诊断的“金标准”
原理与作用
- 染色机制:
苏木精(碱性染料):结合核酸(DNA/RNA),将细胞核染成蓝紫色,突出核形态、染色质分布及核分裂象。
伊红(酸性染料):结合胞质蛋白,将细胞质染成粉红色,显示细胞边界、胞质成分及间质结构。
快速区分正常与病变组织(如癌细胞核大深染、核质比增高)。 初筛肿瘤良恶性,指导后续免疫组化(IHC)或分子检测。
在乳腺癌中的应用
- 鉴别浸润性癌与原位癌:浸润性癌呈不规则巢状或条索状生长,突破基底膜;原位癌(如DCIS)局限于导管内
- 识别特殊亚型:黏液癌:肿瘤细胞漂浮于黏液湖中。浸润性小叶癌:细胞呈单行线状排列
注:HE染色虽不能直接量化恶性程度(如Ki-67指数),但可初步提示肿瘤分化水平,需结合IHC进一步验证
1.3.5、WSI(全切片数字化图像)
技术原理
通过高分辨率扫描仪(如Pannoramic P250)将玻璃病理切片转化为吉像素级数字图像(分辨率达0.24 μm/px),支持多尺度缩放观察。
核心优势
- AI辅助分析:卷积神经网络(CNN)自动识别肿瘤区域、计算核分裂象
- 图神经网络(如SlideGraph+)直接从HE染色WSI预测HER2状态,减少IHC检测需求(AUC>0.8)
多分辨率融合模型
+ HookNet架构:结合低分辨率(全局结构)与高分辨率(细胞细节)图像,提升导管癌与小叶癌的分割精度
未来预后预测:整合WSI特征(如肿瘤异质性)与临床数据,构建复发风险模型
二、WSI处理
2.1、WSI数据:全切片图像与多尺度处理
格式特性与技术挑战
- 文件格式
SVS(Aperio/Leica):金字塔结构存储多分辨率图像,兼容OpenSlide库。
MRXS(3DHistech):由.mrxs文件+同名文件夹组成,含分层数据。
TIFF(OME-TIFF):开放标准,支持多通道荧光图像(如免疫荧光染色)。
- 核心问题
数据量巨大:单张40倍WSI可达10GB,无法直接载入内存。
多分辨率结构:低分辨率用于快速导航(如5x),高分辨率用于细胞级分析(如40x)
处理策略与工具
- 分块读取(Patch Extraction):
方法:按需加载局部区域(如512x512像素块),避免内存溢出。
工具:OpenSlide(C++底层)或Tiffslide(纯Python替代)。
- 格式转换与标准化:
问题:厂商私有格式(如江丰KFB、麦克奥迪MDSX)需转换为通用格式(如SVS)。
方案: 江丰KFB →厂商工具转SVS; 飞利浦iSyntax → openphi转SVS。
2.2、处理特征
- 组织区域检测(Tissue Detection)
- 肿瘤区域识别(可借助标注)
- 特征提取:
手工特征:核形态、排列模式
深度学习特征:使用CNN(如ResNet50)提取patch-level特征,再聚合为slide-level表示
聚合模型:Attention机制(如AMIL)、Transformer、DeepSurv、TransMIL
2.3、推荐数据集
TCGA-BRCA → 包含WSI和临床数据
CAMELYON → 乳腺癌淋巴结转移WSI(适合学习)
三、MRI处理
3.1、MRI数据:DICOM格式与预处理挑战
- DICOM格式
结构特点:DICOM文件由元数据头(Header) 和 像素数据(Pixel Array)
组成。元数据包含患者信息(如PatientID、StudyDate)、扫描参数(如SliceThickness、KVP)和图像属性(如Rows、Columns)。
- 三维重建逻辑:单个MRI检查包含多个Series(如T1、T2序列),每个Series由多个Slice(切面)组成,需按SliceLocation排序后堆叠为3D体数据
3.2、预处理需求与技术方案
- 强度校正:
问题:磁场不均匀性导致图像亮度偏移(如边缘变暗)。
工具:FreeSurfer的mri_watershed或FSL的FAST,通过拟合偏置场校正。
- 运动伪影矫正:
动态序列(如DCE-MRI):需配准时间序列图像(如使用ANTs或FSL-MCFLIRT)。
- 空间标准化:
目标:将不同患者的脑MRI对齐到标准模板(如MNI152)。 方法:仿射变换(刚性)+非线性形变(如SyN算法)
3.3、处理目标
- 肿瘤分割(Segmentation):提取肿瘤区域(ROI)
- 特征提取:
手工特征:放射组学(Radiomics)特征(纹理、形状、强度统计)
深度学习特征:使用3D CNN(如ResNet3D、UNet3D)提取特征
四、病理报告
4.1、数据来源与挑战
- 格式多样性:
非结构化文本(.txt)、半结构化文档(.docx)、数据库条目(SQL表)。 - 中文报告特殊性:
术语差异:如“腺癌”可能简写为“ACA”,“高级别”可能描述为“异型显著”。
信息隐藏:关键指标(如Ki-67指数)常嵌套在描述中(例:“肿瘤细胞增殖活跃,Ki-67约30%”)。
4.2、信息抽取技术路线
- 实体识别(NER):
目标:提取肿瘤大小、分级、切缘状态等实体。
工具: 英文:CLAMP、cTAKES;中文:BERT、BiLSTM、CRF模型(需标注医学语料训练)。
- 关系抽取:
示例:关联“淋巴结转移”与具体数量(如“腋窝淋巴结见2/10枚转移”)
4.3、处理目标及方法
信息抽取(Information Extraction)→ 转为结构化特征
表示学习:将文本转为向量(Embedding)
方法
- 规则/正则表达式提取(适合结构清晰的报告)
例如:用正则匹配 “ER: Positive” → 提取 ER=1 - 自然语言处理(NLP)方法
使用BiLSTM + CRF 进行命名实体识别(NER) 使用预训练医学语言模型:BioBERT, PubMedBERT,
ClinicalBERT, BlueBERT
五、多模态融合
5.1、早期融合(数据级融合)
原理
在输入层直接拼接原始数据或低级特征(如像素+词向量)
示例代码
# 图像特征(512维)与文本特征(256维)拼接
fused_feat = torch.cat([image_feat, text_feat], dim=1) # 输出768维
适用场景:模态高度相关(如视频帧与音频波形)
5.2、中期融合(特征级融合)
原理
先对各模态独立编码,再通过注意力/图网络交互特征
主流技术
- 跨模态注意力:文本特征作为Query,加权聚合图像关键区域(如CLIP模型)。
- 双线性池化:计算视觉与文本特征的外积,捕捉高阶交互(如MCB、MFB)
优势:保留模态特异性,动态加权重要信息
5.3、晚期融合(决策级融合)
-原理:各模态独立训练模型,最终决策加权投票(如医疗中影像模型+化验模型)。
示例:图像分类置信度0.7 + 文本分类置信度0.6 → 加权融合结果0.66(权重0.6:0.4)。
适用场景:模态差异大或数据异步采集(如工业传感器)
5.4、混合融合与深度学习架构
- 混合策略:早期融合 + 跨模态注意力(如多模态Transformer)。
- 先进模型:
双流网络:ViLBERT用独立编码器处理图像/文本,高层通过Co-Attention交互。
统一编码器:GPT-4V直接将图像像素转为Token,与文本Token交错输入Transformer
推荐方案(适合初学者进阶):
- 先尝试 Late Fusion:每个模态单独提取特征 → 分别训练生存模型 → 投票或加权平均 再尝试 Intermediate
- Fusion:使用注意力机制(如Co-Attention)让MRI和WSI特征互相增强
- 最终尝试 Multimodal Transformer:将三个模态的特征输入一个Transformer编码器
六、预后模型(生存分析模型)
6.1、生存分析模型
核心概念: 处理右删失数据(censored data)—— 有些病人在研究结束时还未观察到终点事件(如死亡)。经典ML分类/回归不能直接适用。
常用模型:
- Cox Proportional Hazards (CPH) 模型: 线性模型,预测风险比。基础且常用。 scikit-survival, lifelines。
- 基于树的生存模型: Random Survival Forests (RSF)。scikit-survival, pysurvival。
- 深度学习生存模型:
-
- Cox-based: DeepSurv (本质上是一个NN输出CPH模型中的风险分数)。pycox, DeepSurv。
-
- MTLR (Multi-task Logistic Regression): 离散化生存时间,转化为多个时间点的二分类任务。
-
- DSM (Deep Survival Machines): 参数化生存分布混合模型。dsm。
-
- Transformer + Survival Prediction: 结合Transformer的强大表示能力。
评估指标: C-index (Concordance Index) 是生存分析最常用、最核心的指标! 其他有iAUC (时间相关AUC), Brier Score, Log-rank test (比较风险组)。
6.2、结果分析
- 关键指标(C-index, AUC等)报告。
- 绘制Kaplan-Meier曲线,进行Log-rank检验。
- 分析模型在不同亚组患者中的表现(按分期、分型)。
- 进行可解释性分析 (Interpretability):
传统模型:查看特征重要性(RSF的变量重要性, CPH的系数)。
深度学习模型:使用Grad-CAM、特征重要性扰动、Shapley
Values (SHAP) 等方法解释模型依据什么特征做出了判断(特别是要理解模型是否合理利用了病理报告的结论)。