当前位置：首页 > news >正文

【建模与仿真】基于TPE-SVM的乳腺癌诊断可解释人工智能方法

news 2025/10/18 5:36:56

导读：

乳腺癌是女性中最常见的恶性肿瘤之一，早期精准诊断对提高患者生存率至关重要。针对传统乳腺癌诊断方法存在的主观性强和误诊率高，以及现有人工智能模型可解释性较差等问题。本文设计一个基于贝叶斯优化支持向量机(TPE-SVM)的乳腺癌智能诊断模型，并结合LIME解释方法提高诊断过程中的可解释性。方法上，构建基于径向基核函数的支持向量机模型，并利用TPE算法对关键超参数进行优化，最后引入LIME方法实现诊断结果的特征可视化与解释。采用UCI数据库中的威斯康星乳腺癌数据集进行仿真验证，结果显示，该方法在各项指标上表现优异，进一步的LIME可解释性分析也表明，模型判别依据与临床医学知识高度一致。本文所构建的诊断框架为AI在医疗场景中的可用性与可信性提供了新思路。

作者信息：

宋柯蕾, 王秋阳, 谢彤嫣：上海理工大学管理学院，上海；傅文翰*：上海理工大学管理学院，上海；上海理工大学智慧应急管理学院，上海

论文详情

研究设计与思路

本文提出了一种基于贝叶斯优化支持向量机(TPE-SVM)的乳腺癌诊断模型，并引入LIME可解释性方法进行结果解释。首先，考虑到在医学诊断任务中，不同类型分类错误所带来的后果不同。因此本研究在设计SVM时引入类别加权惩罚因子，提高模型对恶性肿瘤的识别能力。然后，采用树结构Parzen估计器(TPE)算法对SVM模型的关键超参数进行高效优化。最后，结合局部代理解释方法LIME，实现对模型分类依据的特征级可视化，增强模型诊断的透明性与可信度。由于已有的技术相对成熟，本文针对乳腺癌早期诊断中的关键需求，构建了一个系统化的诊断框架：结合类别加权SVM与TPE算法，形成高效的集成优化机制；引入局部解释方法LIME，实现对诊断结果的特征级可视化；最后在标准医学数据集上进行系统性实验验证。

基于TPE-SVM的乳腺癌可解释诊断模型

基于TPE-SVM的乳腺癌可解释性诊断模型如图1所示。

实验设计

1. 数据集介绍

本文采用UCI数据库中具有代表性的威斯康星医学院乳腺癌数据集(Wisconsin Diagnostic Breast Cancer, WDBC)为实验对象，该数据集总共包含569条病例记录，其中良性肿瘤357例，恶性肿瘤212例。每一个病例包含30个特征，涵盖10个实值特征的平均值、标准差和最大值，如表1所示：

2. 数据预处理

该数据集存在明显的类别不平衡特征，在处理静态非平衡医疗数据的分类任务中，决策平面通常更倾向于多数类别样本，导致少数类别样本的识别率较低，为了增强模型的鲁棒性，本文采用SMOTE (Synthetic Minority Over-Sampling Technique)过采样方法平衡数据集。

3. 模型选择与超参数优化

本文采用支持向量机(SVM)作为分类器，选取径向基核函数。为了提高模型性能，采用贝叶斯优化方法中的TPE算法对SVM的关键超参数进行优化，主要包括：惩罚参数C：控制间隔大小和误差衡量；核函数参数γ：控制RBF核函数的宽度。

4. 实验结果与分析

为了验证本研究提出模型的性能，本文分别从模型效果评估、参数优化评估、可解释性分析三个层面进行结果分析。乳腺癌良恶性对应混淆矩阵如表4所示，由表4得各指标计算方式如下：

模型效果评估：用本研究模型与现有常用进行比较，具体结果如表5所示：

从表5可知，本研究在平衡处理后的WDBC数据集上，采用引入代价敏感机制的TPE-SVM模型进行分类实验，整体分类准确率为95.35%，F1分数为0.9510。如图2所示，模型的ROC曲线下面积(AUC)高达0.9898，取得了良好的表现。如图3所示，该模型的PR-AUC达到0.9929，模型对恶性肿瘤的预测精度为0.9848，F1分数为0.9489，表明模型在保持高检测准确性的同时，具备对恶性样本的高度敏感性。

结论

研究在WDBC乳腺癌数据集上进行的数值实验表明，本文模型在准确率、F1-score、AUC值等指标上均表现良好，特别是对恶性肿瘤具有超强的识别能力。LIME可解释性分析可以准确识别出对分类判断影响最大的特征，这些结果与临床的医学知识高度符合，进一步佐证了模型的决策依据与医学知识的一致性，提升了模型诊断的用户信任度。