当前位置: 首页 > news >正文

2025年数学建模国赛C题超详细解题思路

2025年国赛如期开赛,C题作为本次本科组最简单、门槛最低的题目,初步预估选题人数可能超过总人数的50%,即比A B两个题目人数之和还要多。因此,本文将详细的为大家带来C题的解题思路,以便大家能够在C题目中脱颖而出。

注:每个赛区省奖各赛题获奖率一致,不存在选题人数多获奖率比AB要低的情况。

对于后续解题首先需要进行的为数据预处理,包含数据清晰异常值、缺失值处理,数据转码等操作。

异常值处理-题目存在大量不合理的数据,

l19岁女性生育,不符合民法典要求,根据我国《民法典》第一千零四十七条规定,女性的法定结婚年龄为二十周岁。

l体重存在极端异常的边缘数据

l身高存在极端矮的边缘数据

缺失数据-存在不少数据的确实-部分数据可以补足、部分数据可直接删除(独立样本可直接删除) 

l八个末次月经指标数据不存在可直接删除

l序号187编号B044的BMI丢失 但是可直接计算

数据转码-存在汉字 或 符号数据 方便后续建立数学模型

l检测孕周(周数+天数),但是后续解题不需要天数,可直接删除处理

l胎儿是否健康,是否可以转化为0 1

指标

男胎检测数据

女胎检测数据

序号

整数型;不连续,存在跳号(如 4→11);正整数递增

整数型;唯一标识,递增但有跳号(如 4→7

孕妇代码

字符串,格式 “A***”(如A001),唯一孕妇;部分孕妇多次检测

字符串,格式 “B***”(如B001),唯一孕妇;部分孕妇多次检测

年龄

23–43岁,主25–35

21–44 岁,主25–35,均值≈30

身高

144.0–175.0 cm,主155–169 cm,含小数(158.5

150.0–170.0 cm,主155–165 cm,标准差小

体重

70–110 kg;随孕周增加(如A042106→110

66–106 kg;随孕周小幅波动(如B00182→86

末次月经

日期型“YYYY-MM-DD HH:MM:SS”2022-11-18 2023-12-04

日期型;部分缺失(如 B034);覆盖2022–2024

IVF 妊娠

自然受孕IUI(人工授精)IVF(试管婴儿)

自然受孕IVF(试管婴儿)

检测日期

整数“YYYYMMDD”,与孕周逻辑一致;同孕妇递增

整数“YYYYMMDD”,范围20230413–20240708;同孕妇递增

检测抽血

1–4 次;以次和次常见

1–4 次;以2–3 次常见

检测孕周

11w–26w;格式“Xw”“Xw+Y”;随检测次数增大

12w+2–28w+1;格式“Xw+Y”;集中在14w–24w

BMI

27.6398–38.5141,整体偏高,多数≥28;部分肥胖

28.76–38.93,肥胖比例更高

原始读段

2,851,305–6,627,481;波动大;最大A039

3,418,274–7,846,336;分散,均值约500 

比对比例

0.7426–0.8126;集中0.79–0.81;最低A041

0.7540–0.8100;集中0.79–0.81;稳定

重复比例

0.0265–0.0378;多0.028–0.035;最高A009

0.0248–0.0372;均值≈0.028;波动小

唯一比对数

2,123,333–5,118,164;与原始读段数正相关;最大A039

2,605,288–5,909,199;与原始读段数正相关

GC 含量

0.3933–0.4105;主0.399–0.405;最高A022

0.3938–0.4074;主0.398–0.403

Z13

-2.6154–3.5739;极端值A010=3.5739;部分异常

-2.5978–2.8516;偏离0(如B018=2.8516

18

-2.5951–6.0763A010 最大6.0763,与T18 对应

-2.3126–4.3884;高值(B013=4.3884)提示异常

21

-2.1660–2.9018A026=2.9018T21

-1.7309–2.2792;部分与AB 对应(B007=2.2792

ZX染色体

-3.1788–2.5033;波动大;极端A010=-3.1788

-1.9948–3.5709;绝对值较小,近似正态

Y染色体

-3.2213–4.5094A042=4.5094;多接近0

(女胎空白)

浓度

-0.0037–0.1646;多为正,A005 最高0.1646

(女胎空白)

浓度

-0.0037–0.1526A009 最高0.1526

-0.0465–0.0278;均值≈0,波动小

GC含量13 

0.3715–0.3877;主0.377–0.382A010=0.3877

0.3716–0.3872;稳定,SD<0.005

GC 含量 18 号

0.3848–0.4006;主0.389–0.394A010=0.3992

0.3836–0.3989;分布集中

GC 含量21 

0.3917–0.4098;主0.397–0.403A041=0.4099

0.3903–0.4094;常染色体中最高

被过滤比例

0.0160–0.0298;多0.020–0.025A032=0.0298

0.0191–0.0362;均值≈0.024

非整倍体 AB

空值/T13/T18/T21/T13T18/T13T18T21;空值最多;

空值最多;异常含 T13/T18/T21/T13T18

怀孕次数

“1”“2”“≥3”;以“1” “≥3” 为主;“≥3”≈40%

全部为 1

生产次数

10≈70%1≈30%

全部为 0

是否健康

多为;仅A017 两次为,且AB 为空

全部为,无异常结局

问题1:Y染色体浓度与孕妇指标关系模型

问题1 试分析胎儿 Y 染色体浓度与孕妇的孕周数和 BMI 等指标的相关特性,给出相应的关系模型,并检验其显著性。

判断指标类型、数据分布方式选择不同的方式进行模型选择。进行初步相关性分析后,需要建立必要的函数关系,例如

图片

问题2:BMI分组与最佳NIPT时点优化

问题2 临床证明,男胎孕妇的BMI 是影响胎儿Y染色体浓度的最早达标时间(即浓度达到或超过 4%的最早时间)的主要因素。试对男胎孕妇的BMI进行合理分组,给出每组的BMI 区间和最佳NIPT时点,使得孕妇可能的潜在风险最小,并分析检测误差对结果的影响

问题二本质为分组+优化,分组为无标签分组、可以尝试K-means、层次次聚类。或者基于密度的聚类DBSCAN算法、高斯混合模型(GMM)。

优化模型-三要素决策变量、目标函数、约束条件。

风险函数建立

定义第
组孕妇在第
周检测的总风险函数:

图片

问题3:多因素综合考虑的优化模型

问题3 男胎 Y 染色体浓度达标时间受多种因素(身高、体重、年龄等)的影响,试综合考虑这些因素、检测误差和胎儿的 Y 染色体浓度达标比例(即浓度达到或超过 4%的比例),根据男胎孕妇的BMI, 给出合理分组以及每组的最佳NIPT 时点,使得孕妇潜在风险最小,并分析检测误差对结果的影响。

Cox比例风险模型

建立达标时间的生存分析模型:

问题4:女胎异常判定方法

问题4 由于孕妇和女胎都不携带 Y 染色体,重要的是如何判定女胎是否异常。试以女胎孕妇的 21 号、18 号和 13 号染色体非整倍体(AB 列)为判定结果,综合考虑 X 染色体及上述染色体的 Z 值、GC 含量、读段数及相关比例、BMI 等因素,给出女胎异常的判定方法。

多分类逻辑回归模型

对于三种异常类型(13、18、21号染色体异常),建立多项逻辑回归:


文章转载自:

http://2RGX0sDu.qckwj.cn
http://FiDw51Wh.qckwj.cn
http://sI3QrOlv.qckwj.cn
http://GvtkAwsB.qckwj.cn
http://2SHekeV0.qckwj.cn
http://1rLvx4N6.qckwj.cn
http://CVrDdkmm.qckwj.cn
http://XjDGjbY7.qckwj.cn
http://Vdn7FHmR.qckwj.cn
http://KNu9m0rk.qckwj.cn
http://jWWiYuCP.qckwj.cn
http://Qrh4cTof.qckwj.cn
http://EGV5IW8Z.qckwj.cn
http://DXByWjuQ.qckwj.cn
http://Bz5AIub4.qckwj.cn
http://khTwT7ye.qckwj.cn
http://Yby9vcUS.qckwj.cn
http://LqvMWTSD.qckwj.cn
http://cNjzAqUH.qckwj.cn
http://FTF32dIE.qckwj.cn
http://x9wnMJ2e.qckwj.cn
http://wE7NEbN8.qckwj.cn
http://OFY2y9W6.qckwj.cn
http://jhhtUhqV.qckwj.cn
http://VDIYsSmx.qckwj.cn
http://3pqKcikq.qckwj.cn
http://yJ2anMTQ.qckwj.cn
http://SPyx5m4x.qckwj.cn
http://h7ovFDpr.qckwj.cn
http://lRsKzp3M.qckwj.cn
http://www.dtcms.com/a/367389.html

相关文章:

  • 【论文阅读】-《Besting the Black-Box: Barrier Zones for Adversarial Example Defense》
  • 小迪web自用笔记27
  • 不会战略、不会融资、不会搭团队?别叫自己 CTO
  • ⸢ 肆 ⸥ ⤳ 默认安全建设方案:b.安全资产建设
  • 【高分论文密码】大尺度空间模拟预测与数字制图
  • 机器翻译:腾讯混元团队开源的模型 Hunyuan-MT 详解
  • #数据结构----2.1线性表
  • IT需求提示未读信息查询:深度技术解析与性能优化指南【类似:钉钉已读 功能】
  • RAG(检索增强生成)-篇一
  • 解密注意力机制:为何它能在Transformer中实现高效并行计算?
  • 2025跨境独立站最新最完整的搭建流程
  • 2025年百度商业AI技术创新大赛赛道二:视频广告生成推理性能优化-初赛第五名,复赛第九名方案分享
  • VS code如何下载安装
  • 跨部门共享研发文档总是困难重重该如何改善
  • 关于如何在PostgreSQL中调整数据库参数和配置的综合指南
  • 若依微服务遇到的配置问题
  • Cadence OrCAD Capture绘制复用管脚封装的方法图文教程
  • LLM中的function call
  • 残差网络的介绍
  • cursor+python轻松实现电脑监控
  • 梯度爆炸问题:深度学习中的「链式核弹」与拆弹指南
  • JavaAI炫技赛:电商系统商品管理模块设计与实现——基于Spring AI的商品智能上架全流程解析
  • G2D 图形加速器
  • 2024年12月GESPC++三级真题解析(含视频)
  • 0904 类的继承
  • apache poi与Office Open XML关系
  • What is a prototype network in few-shot learning?
  • 岗位学习:招聘平台风控治理策略
  • 安卓开发学习8-仿简单计算器
  • SAP HANA Scale-out 01:表分布