2025年数学建模国赛C题超详细解题思路
2025年国赛如期开赛,C题作为本次本科组最简单、门槛最低的题目,初步预估选题人数可能超过总人数的50%,即比A B两个题目人数之和还要多。因此,本文将详细的为大家带来C题的解题思路,以便大家能够在C题目中脱颖而出。
注:每个赛区省奖各赛题获奖率一致,不存在选题人数多获奖率比AB要低的情况。
对于后续解题首先需要进行的为数据预处理,包含数据清晰异常值、缺失值处理,数据转码等操作。
异常值处理-题目存在大量不合理的数据,
l19岁女性生育,不符合民法典要求,根据我国《民法典》第一千零四十七条规定,女性的法定结婚年龄为二十周岁。
l体重存在极端异常的边缘数据
l身高存在极端矮的边缘数据
缺失数据-存在不少数据的确实-部分数据可以补足、部分数据可直接删除(独立样本可直接删除)
l八个末次月经指标数据不存在可直接删除
l序号187编号B044的BMI丢失 但是可直接计算
数据转码-存在汉字 或 符号数据 方便后续建立数学模型
l检测孕周(周数+天数),但是后续解题不需要天数,可直接删除处理
l胎儿是否健康,是否可以转化为0 1
指标 | 男胎检测数据 | 女胎检测数据 |
序号 | 整数型;不连续,存在跳号(如 4→11);正整数递增 | 整数型;唯一标识,递增但有跳号(如 4→7) |
孕妇代码 | 字符串,格式 “A***”(如A001),唯一孕妇;部分孕妇多次检测 | 字符串,格式 “B***”(如B001),唯一孕妇;部分孕妇多次检测 |
年龄 | 23–43岁,主25–35 | 21–44 岁,主25–35,均值≈30 |
身高 | 144.0–175.0 cm,主155–169 cm,含小数(158.5) | 150.0–170.0 cm,主155–165 cm,标准差小 |
体重 | 70–110 kg;随孕周增加(如A042:106→110) | 66–106 kg;随孕周小幅波动(如B001:82→86) |
末次月经 | 日期型“YYYY-MM-DD HH:MM:SS”;2022-11-18 至2023-12-04 | 日期型;部分缺失(如 B034);覆盖2022–2024 |
IVF 妊娠 | “自然受孕”IUI(人工授精)IVF(试管婴儿) | “自然受孕”IVF(试管婴儿) |
检测日期 | 整数“YYYYMMDD”,与孕周逻辑一致;同孕妇递增 | 整数“YYYYMMDD”,范围20230413–20240708;同孕妇递增 |
检测抽血 | 1–4 次;以1 次和4 次常见 | 1–4 次;以2–3 次常见 |
检测孕周 | 11w–26w;格式“Xw”或“Xw+Y”;随检测次数增大 | 12w+2–28w+1;格式“Xw+Y”;集中在14w–24w |
BMI | 27.6398–38.5141,整体偏高,多数≥28;部分肥胖 | 28.76–38.93,肥胖比例更高 |
原始读段 | 2,851,305–6,627,481;波动大;最大A039 | 3,418,274–7,846,336;分散,均值约500 万 |
比对比例 | 0.7426–0.8126;集中0.79–0.81;最低A041 | 0.7540–0.8100;集中0.79–0.81;稳定 |
重复比例 | 0.0265–0.0378;多0.028–0.035;最高A009 | 0.0248–0.0372;均值≈0.028;波动小 |
唯一比对数 | 2,123,333–5,118,164;与原始读段数正相关;最大A039 | 2,605,288–5,909,199;与原始读段数正相关 |
GC 含量 | 0.3933–0.4105;主0.399–0.405;最高A022 | 0.3938–0.4074;主0.398–0.403 |
Z值13号 | -2.6154–3.5739;极端值A010=3.5739;部分异常 | -2.5978–2.8516;偏离0(如B018=2.8516) |
Z 值18号 | -2.5951–6.0763;A010 最大6.0763,与T18 对应 | -2.3126–4.3884;高值(B013=4.3884)提示异常 |
Z 值21号 | -2.1660–2.9018;A026=2.9018(T21) | -1.7309–2.2792;部分与AB 对应(B007=2.2792) |
Z值X染色体 | -3.1788–2.5033;波动大;极端A010=-3.1788 | -1.9948–3.5709;绝对值较小,近似正态 |
Z 值Y染色体 | -3.2213–4.5094;A042=4.5094;多接近0 | (女胎空白) |
Y 浓度 | -0.0037–0.1646;多为正,A005 最高0.1646; | (女胎空白) |
X 浓度 | -0.0037–0.1526;A009 最高0.1526; | -0.0465–0.0278;均值≈0,波动小 |
GC含量13 号 | 0.3715–0.3877;主0.377–0.382;A010=0.3877 | 0.3716–0.3872;稳定,SD<0.005 |
GC 含量 18 号 | 0.3848–0.4006;主0.389–0.394;A010=0.3992 | 0.3836–0.3989;分布集中 |
GC 含量21 号 | 0.3917–0.4098;主0.397–0.403;A041=0.4099 | 0.3903–0.4094;常染色体中最高 |
被过滤比例 | 0.0160–0.0298;多0.020–0.025;A032=0.0298 | 0.0191–0.0362;均值≈0.024 |
非整倍体 AB | 空值/T13/T18/T21/T13T18/T13T18T21;空值最多; | 空值最多;异常含 T13/T18/T21/T13T18 |
怀孕次数 | “1”“2”“≥3”;以“1” 和“≥3” 为主;“≥3”≈40% | 全部为 1 |
生产次数 | 0 或1;0≈70%,1≈30% | 全部为 0 |
是否健康 | 多为“是”;仅A017 两次为“否”,且AB 为空 | 全部为“是”,无异常结局 |
问题1:Y染色体浓度与孕妇指标关系模型
问题1 试分析胎儿 Y 染色体浓度与孕妇的孕周数和 BMI 等指标的相关特性,给出相应的关系模型,并检验其显著性。
判断指标类型、数据分布方式选择不同的方式进行模型选择。进行初步相关性分析后,需要建立必要的函数关系,例如
问题2:BMI分组与最佳NIPT时点优化
问题2 临床证明,男胎孕妇的BMI 是影响胎儿Y染色体浓度的最早达标时间(即浓度达到或超过 4%的最早时间)的主要因素。试对男胎孕妇的BMI进行合理分组,给出每组的BMI 区间和最佳NIPT时点,使得孕妇可能的潜在风险最小,并分析检测误差对结果的影响
问题二本质为分组+优化,分组为无标签分组、可以尝试K-means、层次次聚类。或者基于密度的聚类DBSCAN算法、高斯混合模型(GMM)。
优化模型-三要素决策变量、目标函数、约束条件。
风险函数建立
定义第
组孕妇在第
周检测的总风险函数:
问题3:多因素综合考虑的优化模型
问题3 男胎 Y 染色体浓度达标时间受多种因素(身高、体重、年龄等)的影响,试综合考虑这些因素、检测误差和胎儿的 Y 染色体浓度达标比例(即浓度达到或超过 4%的比例),根据男胎孕妇的BMI, 给出合理分组以及每组的最佳NIPT 时点,使得孕妇潜在风险最小,并分析检测误差对结果的影响。
Cox比例风险模型
建立达标时间的生存分析模型:
问题4:女胎异常判定方法
问题4 由于孕妇和女胎都不携带 Y 染色体,重要的是如何判定女胎是否异常。试以女胎孕妇的 21 号、18 号和 13 号染色体非整倍体(AB 列)为判定结果,综合考虑 X 染色体及上述染色体的 Z 值、GC 含量、读段数及相关比例、BMI 等因素,给出女胎异常的判定方法。
多分类逻辑回归模型
对于三种异常类型(13、18、21号染色体异常),建立多项逻辑回归: