2025年十五届APMCM亚太B题第二版本详细思路分析+问题1可视化
B题 疾病的预测与大数据分析
问题背景
为进一步加强以目标为导向的医疗质量安全管理工作,国家卫生健康委组织制定了《2025 年国家医疗质量安全改进目标》和 2025 年质控工作改进目标。
根据世界卫生组织(WHO)的数据统计,心血管疾病(CVD)是全球第一大死亡原因,估计每年夺去1790万人的生命,占全球死亡人数的31%。附件中心脏病 heart.csv 数据集包含 11 个可用于预测可能的心脏病的特征。患有心血管疾病或心血管风险高的人(由于存在一种或多种危险因素,如高血压,糖尿病,高脂血症或已经确定的疾病)需要早期发现和管理。此外,中风是全球第二大死亡原因,约占总死亡人数的 11%。本赛题附件中 stroke.csv 中风数据集中的每一行都提供了有关患者的相关信息,包含输入参数(如性别,年龄,各种疾病和吸烟状况)等指标,用于预测患者是否可能中风。第三种疾病肝硬化(cirrhosis)是由多种形式的肝病和病症(如肝炎和慢性酒精中毒)引起的肝脏瘢痕形成(纤维化)的晚期。现需运用数据统计与分析技能,深入挖掘数据信息,预测不同疾病发生的概率,提高全民预防意识。
问题分析:
数据集:
(1)stroke.csv:5110条记录,12个特征,包含人口统计学、生理指标和生活习惯
(2)heart.csv:918条记录,12个特征,包含临床检查和生理指标
(3)cirrhosis.csv:418条记录,20个特征,包含详细的生化指标和临床表现
问题1分析:数据预处理与基础统计分析
问题1:对三种疾病数据集 stroke.csv、heart.csv 和 cirrhosis.csv 进行数据预处理、统计分析和可视化,并分析哪些因素会影响中风、心脏病和肝硬化的患病概率。
1、数据预处理
1.1缺失值处理
①若缺失率 < 5%:使用简单插补(均值/中位数/众数)
②若 5% ≤ 缺失率 < 20%:使用多重插补(MICE算法):
多重插补的数学原理(MICE算法):
问题2分析:不同疾病预测模型的构建
问题2:请分别选取合适的特征指标,建立中风、心脏病和肝硬化三种疾病患病概率的预测模型,并进行模型准确性的检验、灵敏度分析和模型改进。
1、特征工程
1.1 特征构造
(1)交互特征:如年龄×BMI、血压×胆固醇
(2)多项式特征:如age2age^2 age2、BMI2BMI^2 BMI2
(3)比值特征:如胆固醇/HDL比值
(4)分箱特征:将连续变量离散化