当前位置: 首页 > news >正文

机器学习建模+ SHAP模型预测解释

来咯,又一篇超厉害的文献被发现啦!还是机器学习建模+SHAP的组合,成功发表在医学知名期刊上,直接拿下二区,影响因子也相当不错!如今,机器学习建模和SHAP解释的联用正流行,这篇文章就是很好的范例。新技术联用不仅创新性高,还具有一定技术难度,当然,难度与高分也是并存的!有生信基础的小伙伴不妨尝试运用,能让文章增色不少。要是小白觉得有难度,也别担心错过这波发文红利,可以来找帮主专业团队帮忙呀! 

下面咱们来好好瞧瞧这篇文章,中山大学团队的研究思路十分巧妙,很值得学习:

1.数据应用:该研究使用SEER数据库进行分析和建模。本文中SEER数据库具有显著优势,其包含大量癌症诊断与生存数据,为研究提供丰富信息。数据公开且无需额外伦理审批,便于获取。这使得研究可基于大样本开展,增强结果可靠性,有力支撑膀胱癌预后模型构建及相关分析。

2.热门选题:聚焦膀胱癌患者根治性膀胱切除术后5年癌症特异性死亡率的预测,这在膀胱癌研究领域是关键问题。通过构建机器学习模型来解决,契合当下医学研究利用新技术探索疾病预后的趋势 。

3.思路设计:运用6种机器学习算法建模,并借助SHAP方法解释模型,全面评估模型性能并与现有模型对比,技术手段先进。整体数据、选题和分析思路都极具创新性,为相关研究提供了新思路

题目:使用机器学习来预测接受根治性膀胱切除术的膀胱癌患者的癌症特异性死亡率:基于先知的研究。

杂志:BMC CANCER

影响因子:IF=3.4

发表时间:2025年5月

研究背景

膀胱癌是全球常见癌症,根治性膀胱切除术是其重要治疗手段,但术后5年癌症特异性死亡率约46%。目前评估患者预后的模型存在变量多、难获取信息以及未充分利用现代技术等问题。虽然机器学习在医学领域应用广泛,但在膀胱癌预后预测方面的研究较少。因此,本文旨在利用机器学习构建可解释的预后模型,预测膀胱癌患者根治性膀胱切除术后5年癌症特异性死亡率,并与现有模型比较。    

研究思路

图片

研究结果

1.数据收集与整理

以SEER数据库中2000 - 2020年及中山大学附属第一医院2016 - 2019年的膀胱癌患者数据为对象。经筛选,最终8380例患者纳入研究,其中训练集6656例、内部验证集1664例、外部验证集60例(图1)。整理患者年龄、性别、病理等多方面信息,为后续分析做准备(表1)。    

图片
图1:患者的基线人口统计学和临床病理特征。    

图片
表1:患者的基线人口统计学和临床病理特征。

2.预后因素确定

运用单变量和多变量Cox回归分析上述患者数据。确定年龄、种族、病理等8个独立预后因素。年龄≥65岁、黑色人种、非尿路上皮癌等因素与较差的癌症特异性生存相关;结婚和接受化疗则与较好的生存相关(表2)。    

图片
表2:SEER数据库中癌症特异性生存的选定变量的单变量和多变量Cox回归分析。

3.模型构建与评估

采用6种机器学习算法(LightGBM、GBDT等)和Cox比例风险回归模型(CPH),以训练集数据构建模型。通过C指数和Brier分数评估,发现LightGBM模型表现最佳。内部验证集C指数0.723、Brier分数0.191;外部验证集C指数0.791、Brier分数0.134(表3)。    

图片
表3:预测模型的性能。

4.对LightGBM模型进行解释

图2从全局展示,淋巴结密度和肿瘤分期对预后影响最大。图3通过瀑布图和力场图,针对两个特定患者进行局部解释,展示各特征对预测结果的贡献,蓝色特征倾向“生存”,红色倾向“死亡”(图2、图3)。

图片
图2:采用SHAP法进行的全局模型解释。  

  

图片
图3:采用SHAP法进行的局部模型解释。

5.模型比较

将LightGBM模型与3种现有模型对比。图4(ROC曲线)、图5(校准曲线)和图6(决策曲线分析,DCA)显示,LightGBM模型在判别和校准能力上更优,临床实用性更强。在不同阈值概率下,其DCA曲线净效益更大,能更好地指导临床决策。 

图片
图4:多种模型的ROC曲线比较。

    

图片
图5:多模型校准曲线比较。

图6:多种模型的决策曲线分析。
图6:多种模型的决策曲线分析。

 

http://www.dtcms.com/a/108949.html

相关文章:

  • 基于Python+MySQL实现(Web)端的教务管理系统
  • Apache httpclient okhttp
  • Java 多态:理解面向对象编程的核心概念
  • 印度股票K线、实时行情与IPO新股数据对接指南
  • 【测试】每日三道面试题 4/3
  • Low Energy Controller——Air interface packets(3)
  • Tree - Shaking
  • nginx的二次开发版本openresty
  • 【vLLM 学习】调试技巧
  • JUC系列JMM学习之随笔
  • 基于vscode(GDB)调试ros2节点
  • 基于腾讯云EdgeOne Pages技术轻松搭建专属的对话型 AI 网站
  • 基于ResNet18的Cifer-10数据集图像分类
  • UE5学习笔记 FPS游戏制作42 按钮添加回调函数
  • SpringBoot项目Sa-token框架整合JWT
  • 每天学一个 Linux 命令(12):chown
  • flutter 项目结构目录以及pubspec.ymal等文件描述
  • /////////
  • [MySQL初阶]MySQL库的操作
  • 位置编码(Positional Encoding, PE)的作用
  • 开源AI模型落地教程:如何在个人电脑安装并运行QwQ-32B大模型
  • 【MyBatis】深入解析 MyBatis:关于注解和 XML 的 MyBatis 开发方案下字段名不一致的的查询映射解决方案
  • 【Linux】动静态库知识大梳理
  • Android Gradle、Android Gradle Plugin、BuildTool关系
  • 真实笔试题
  • Smallworld Geo Network Management(GNM):电力-通信-公共设施GIS平台
  • 树莓派 5 部署 OMV(OpenMediaVault)
  • 解决docker的ubuntu系统中文乱码问题
  • 【HarmonyOS Next之旅】DevEco Studio使用指南(十)
  • 深度学习 Deep Learning 第16章 结构化概率模型