2025年第六届MathorCup大数据竞赛B题超详细解题思路
MathorCup妈杯大数据竞赛,题目简单【国赛难度的0.5】,比赛时长一周,获奖率高(50%),可以看做2025年下半年最容易获奖的中文数模竞赛,本文将为大家带来B题超详细解题思路,以帮助大家尽快梳理B题解题。
赛题难度A:B=9:7
选题人数A:B=2:8
选题须知:数学建模每个赛题获奖率都是一样的,因此更简单的、选题多的更容易获奖,这种题目小白会多也就意味着相对来讲竞争会小一些;选题少、难度大的题目通常是有一定知识背景、专业合适,即竞争更加激烈。
赛道 B:物流理赔风险识别与服务升级
目标:通过历史理赔数据,进行:
1.风险标注(标签生成);
2.赔付金额预测;
3.风险分类预测(多分类问题)。
首先,只能对于数据题目需要进行大量的数据预测处理,具体而言,数据据存在大量不合理的数据。具体英文类型介绍见文末表格
l保价金额,运单保价金额存在846个负数
l始发城市与目的城市ID一致 存在112个
l寄件人账号ID收件人 ID一致且均为300000,但是收发城市不同 存在27个
l新旧程度,0/1/2 标识,代表未知/全新/ 二手但是存在-1的标识无法解释
l其他各指标始发网点发单量、始发网点赔付比例均存在负数,但与实际情况不符。
我们需要人为对各种异常数据进行介绍并处理。
二、问题 1:风险标注模型构建
·指标:实际赔付金额、索赔差额 = 实际赔付金额 - 索赔金额;
·样本不平衡(严重超额 <3%,合理诉求 >85%)。
三种思路:基于分位数的动态阈值法;基于聚类的自适应标注法;构建优化模型
需要满足规则:
1、一般来说,“严重超额”的运单占比不会太高(通常小于3%),“合理诉求”的运单不低于85%。
2、风险标注结果同时与索赔差额和实际赔付金额有关。
3、实际赔付金额越高,则需要更高的索赔差额才会标注为“诉求偏高”或“严重超额”
4、对于相似实际赔付金额的运单标注时,分成同一类的运单,其索赔差额应尽可能接近。
5、一般来说“合理诉求”的运单索赔差额相对密集,“严重超额”的运单索赔差额相对稀疏,且不同类型的运单索赔差额密集程度之间存在明显差别。
以下结果为示例结果,后续还需要优化,仅作示例展示


基于分位数的动态阈值法
1.按实际赔付金额分段(如:0-100, 100-500, 500-1000, 1000+)
2. 每个分段内:
- 计算索赔差额的分位数(如5%, 85%, 97%)
- 设置动态阈值:
* 合理诉求:差额 < Q85
* 诉求偏高:Q85 ≤ 差额 < Q97
* 严重超额:差额 ≥ Q97
3. 使用平滑函数连接各分段阈值
基于聚类的自适应标注法
1.特征构造:
- x1 = 索赔差额
- x2 = 索赔差额/实际赔付金额(相对差额)
- x3 = log(实际赔付金额)
2. 使用DBSCAN或高斯混合模型(GMM)进行聚类
- 识别密集区域(合理诉求)
- 识别稀疏异常点(严重超额)
- 中间区域(诉求偏高)
3. 根据业务约束调整:
- 确保严重超额比例<3%
- 确保合理诉求比例≥85%
构建优化模型
本问题的核心是建立一个风险标注规则,将运单按索赔差额和实际赔付金额划分为三类。这本质上是一个带约束的边界优化问题,需要找到两条最优边界曲线,使得分类结果同时满足多个业务约束条件。

三、问题 2:实际赔付金额预测
·预测目标:连续变量。
·候选模型:
1. 线性模型(Ridge/Lasso)
- 捕获线性关系
- 提供基准预测
2. 树模型(XGBoost/LightGBM)
- 处理非线性关系
- 自动特征选择
3. 深度学习(DNN)
- 捕获复杂交互
- 处理高维特征
4. 模型融合
- Stacking或Blending
- 加权平均
·评估指标:
oRMSE、MAE;
oR²;
o相对误差 <10% 占比。
四、问题 3:风险分类预测
两条路径
路径A(两段式):先预测Q2,再代入问题一规则与给定索赔额计算并打标。
路径B(端到端多分类/序数分类):直接以运单特征
预测三类标签(合理/偏高/严重)。
·输入:附件 1 特征;
·标签:风险标注类别;
·建模路线:
o机器学习模型:LightGBM / XGBoost;
o不平衡处理:
1. 过采样技术:
- SMOTE(合成少数类过采样)
- ADASYN(自适应合成采样)
- BorderlineSMOTE(边界SMOTE)
2. 欠采样技术:
- Tomek Links
- ENN(编辑最近邻)
3. 混合采样:
- SMOTE + Tomek
·指标:
o宏平均 F1;
o准确率;
o混淆矩阵;
oROC-AUC(多类)。
| 英文异常类型 | 中文翻译 | 业务含义说明 |
| Damage | 破损 | 货物在运输或装卸过程中出现损坏、变形、漏液、破碎等情况。 |
| Dangerous Goods | 危险品 | 包裹中含有易燃、易爆、有毒或违禁物品,被系统或人工识别为危险货物。 |
| Handover Error | 交接错误 | 在网点或中转站之间交接时出现操作错误,如包裹被误分、漏交、错签等。 |
| Pickup Error | 揽收错误 | 快递员揽件阶段出错,如取错件、未揽件、信息录入错误等。 |
| Shipping Error | 发运错误 | 包裹在运输路径上出错,如错分发、错路线运输、延误等。 |
| Suspected Lost | 疑似丢失 | 包裹长时间未更新物流轨迹,疑似丢失或无法追踪。 |
