【建模与仿真】基于TPE-SVM的乳腺癌诊断可解释人工智能方法
导读:
乳腺癌是女性中最常见的恶性肿瘤之一,早期精准诊断对提高患者生存率至关重要。针对传统乳腺癌诊断方法存在的主观性强和误诊率高,以及现有人工智能模型可解释性较差等问题。本文设计一个基于贝叶斯优化支持向量机(TPE-SVM)的乳腺癌智能诊断模型,并结合LIME解释方法提高诊断过程中的可解释性。方法上,构建基于径向基核函数的支持向量机模型,并利用TPE算法对关键超参数进行优化,最后引入LIME方法实现诊断结果的特征可视化与解释。采用UCI数据库中的威斯康星乳腺癌数据集进行仿真验证,结果显示,该方法在各项指标上表现优异,进一步的LIME可解释性分析也表明,模型判别依据与临床医学知识高度一致。本文所构建的诊断框架为AI在医疗场景中的可用性与可信性提供了新思路。
作者信息:
宋柯蕾, 王秋阳, 谢彤嫣:上海理工大学管理学院,上海;傅文翰*:上海理工大学管理学院,上海;上海理工大学智慧应急管理学院,上海
论文详情
研究设计与思路
本文提出了一种基于贝叶斯优化支持向量机(TPE-SVM)的乳腺癌诊断模型,并引入LIME可解释性方法进行结果解释。首先,考虑到在医学诊断任务中,不同类型分类错误所带来的后果不同。因此本研究在设计SVM时引入类别加权惩罚因子,提高模型对恶性肿瘤的识别能力。然后,采用树结构Parzen估计器(TPE)算法对SVM模型的关键超参数进行高效优化。最后,结合局部代理解释方法LIME,实现对模型分类依据的特征级可视化,增强模型诊断的透明性与可信度。由于已有的技术相对成熟,本文针对乳腺癌早期诊断中的关键需求,构建了一个系统化的诊断框架:结合类别加权SVM与TPE算法,形成高效的集成优化机制;引入局部解释方法LIME,实现对诊断结果的特征级可视化;最后在标准医学数据集上进行系统性实验验证。
基于TPE-SVM的乳腺癌可解释诊断模型
基于TPE-SVM的乳腺癌可解释性诊断模型如图1所示。
实验设计
1. 数据集介绍
本文采用UCI数据库中具有代表性的威斯康星医学院乳腺癌数据集(Wisconsin Diagnostic Breast Cancer, WDBC)为实验对象,该数据集总共包含569条病例记录,其中良性肿瘤357例,恶性肿瘤212例。每一个病例包含30个特征,涵盖10个实值特征的平均值、标准差和最大值,如表1所示:
2. 数据预处理
该数据集存在明显的类别不平衡特征,在处理静态非平衡医疗数据的分类任务中,决策平面通常更倾向于多数类别样本,导致少数类别样本的识别率较低,为了增强模型的鲁棒性,本文采用SMOTE (Synthetic Minority Over-Sampling Technique)过采样方法平衡数据集。
3. 模型选择与超参数优化
本文采用支持向量机(SVM)作为分类器,选取径向基核函数。为了提高模型性能,采用贝叶斯优化方法中的TPE算法对SVM的关键超参数进行优化,主要包括:惩罚参数C:控制间隔大小和误差衡量;核函数参数γ:控制RBF核函数的宽度。
4. 实验结果与分析
为了验证本研究提出模型的性能,本文分别从模型效果评估、参数优化评估、可解释性分析三个层面进行结果分析。乳腺癌良恶性对应混淆矩阵如表4所示,由表4得各指标计算方式如下:
模型效果评估:用本研究模型与现有常用进行比较,具体结果如表5所示:
从表5可知,本研究在平衡处理后的WDBC数据集上,采用引入代价敏感机制的TPE-SVM模型进行分类实验,整体分类准确率为95.35%,F1分数为0.9510。如图2所示,模型的ROC曲线下面积(AUC)高达0.9898,取得了良好的表现。如图3所示,该模型的PR-AUC达到0.9929,模型对恶性肿瘤的预测精度为0.9848,F1分数为0.9489,表明模型在保持高检测准确性的同时,具备对恶性样本的高度敏感性。
结论
研究在WDBC乳腺癌数据集上进行的数值实验表明,本文模型在准确率、F1-score、AUC值等指标上均表现良好,特别是对恶性肿瘤具有超强的识别能力。LIME可解释性分析可以准确识别出对分类判断影响最大的特征,这些结果与临床的医学知识高度符合,进一步佐证了模型的决策依据与医学知识的一致性,提升了模型诊断的用户信任度。
基金项目:
上海市软科学研究项目(25692116600)
上海高校青年教师培养资助计划(ZZ202203036)
原文链接:
https://doi.org/10.12677/mos.2025.1410600