当前位置: 首页 > news >正文

2025年第六届MathorCup大数据竞赛B题超详细解题思路

MathorCup妈杯大数据竞赛,题目简单【国赛难度的0.5】,比赛时长一周,获奖率高(50%),可以看做2025年下半年最容易获奖的中文数模竞赛,本文将为大家带来B题超详细解题思路,以帮助大家尽快梳理B题解题。

赛题难度A:B=9:7

选题人数A:B=2:8

选题须知:数学建模每个赛题获奖率都是一样的,因此更简单的、选题多的更容易获奖,这种题目小白会多也就意味着相对来讲竞争会小一些;选题少、难度大的题目通常是有一定知识背景、专业合适,即竞争更加激烈。

赛道 B:物流理赔风险识别与服务升级

目标:通过历史理赔数据,进行:

1.风险标注(标签生成)

2.赔付金额预测

3.风险分类预测(多分类问题)

首先,只能对于数据题目需要进行大量的数据预测处理,具体而言,数据据存在大量不合理的数据。具体英文类型介绍见文末表格

l保价金额,运单保价金额存在846个负数

l始发城市与目的城市ID一致 存在112个

l寄件人账号ID收件人 ID一致且均为300000,但是收发城市不同 存在27个

l新旧程度,0/1/2 标识,代表未知/全新/ 二手但是存在-1的标识无法解释

l其他各指标始发网点发单量、始发网点赔付比例均存在负数,但与实际情况不符。

我们需要人为对各种异常数据进行介绍并处理。

二、问题 1:风险标注模型构建

·指标:实际赔付金额、索赔差额 = 实际赔付金额 - 索赔金额;

·样本不平衡(严重超额 <3%,合理诉求 >85%)。

三种思路:基于分位数的动态阈值法基于聚类的自适应标注法构建优化模型

需要满足规则:

1、一般来说,“严重超额”的运单占比不会太高(通常小于3%),“合理诉求”的运单不低于85%。

2、风险标注结果同时与索赔差额和实际赔付金额有关。

3、实际赔付金额越高,则需要更高的索赔差额才会标注为“诉求偏高”或“严重超额”

4、对于相似实际赔付金额的运单标注时,分成同一类的运单,其索赔差额应尽可能接近。

5、一般来说“合理诉求”的运单索赔差额相对密集,“严重超额”的运单索赔差额相对稀疏,且不同类型的运单索赔差额密集程度之间存在明显差别。

以下结果为示例结果,后续还需要优化,仅作示例展示

图片

图片

基于分位数的动态阈值法

1.按实际赔付金额分段(如:0-100, 100-500, 500-1000, 1000+)
2. 每个分段内:
   - 计算索赔差额的分位数(如5%, 85%, 97%)
   - 设置动态阈值:
     * 合理诉求:差额 < Q85
     * 诉求偏高:Q85 ≤ 差额 < Q97
     * 严重超额:差额 ≥ Q97
3. 使用平滑函数连接各分段阈值
基于聚类的自适应标注法

1.特征构造:
   - x1 = 索赔差额
   - x2 = 索赔差额/实际赔付金额(相对差额)
   - x3 = log(实际赔付金额)
2. 使用DBSCAN或高斯混合模型(GMM)进行聚类
   - 识别密集区域(合理诉求)
   - 识别稀疏异常点(严重超额)
   - 中间区域(诉求偏高)
3. 根据业务约束调整:
   - 确保严重超额比例<3%
   - 确保合理诉求比例≥85%
构建优化模型

本问题的核心是建立一个风险标注规则,将运单按索赔差额和实际赔付金额划分为三类。这本质上是一个带约束的边界优化问题,需要找到两条最优边界曲线,使得分类结果同时满足多个业务约束条件。

图片

三、问题 2:实际赔付金额预测

·预测目标:连续变量。

·候选模型

1. 线性模型(Ridge/Lasso)

- 捕获线性关系

- 提供基准预测

2. 树模型(XGBoost/LightGBM)

- 处理非线性关系

- 自动特征选择

3. 深度学习(DNN)

- 捕获复杂交互

- 处理高维特征

4. 模型融合

- Stacking或Blending

- 加权平均

·评估指标

oRMSE、MAE;

oR²;

o相对误差 <10% 占比。

四、问题 3:风险分类预测

两条路径

路径A(两段式):先预测Q2,再代入问题一规则与给定索赔额计算并打标。

路径B(端到端多分类/序数分类):直接以运单特征 
 预测三类标签(合理/偏高/严重)。

·输入:附件 1 特征;

·标签:风险标注类别;

·建模路线

o机器学习模型:LightGBM / XGBoost;

o不平衡处理:

1. 过采样技术:
   - SMOTE(合成少数类过采样)
   - ADASYN(自适应合成采样)
   - BorderlineSMOTE(边界SMOTE)
  2. 欠采样技术:
   - Tomek Links
   - ENN(编辑最近邻)
  3. 混合采样:
   - SMOTE + Tomek 

·指标

o宏平均 F1;

o准确率;

o混淆矩阵;

oROC-AUC(多类)。

英文异常类型

中文翻译

业务含义说明

Damage

破损

货物在运输或装卸过程中出现损坏、变形、漏液、破碎等情况。

Dangerous Goods

危险品

包裹中含有易燃、易爆、有毒或违禁物品,被系统或人工识别为危险货物。

Handover Error

交接错误

在网点或中转站之间交接时出现操作错误,如包裹被误分、漏交、错签等。

Pickup Error

揽收错误

快递员揽件阶段出错,如取错件、未揽件、信息录入错误等。

Shipping Error

发运错误

包裹在运输路径上出错,如错分发、错路线运输、延误等。

Suspected Lost

疑似丢失

包裹长时间未更新物流轨迹,疑似丢失或无法追踪。

http://www.dtcms.com/a/524853.html

相关文章:

  • How to Write Hotkeys(如何编写热键)
  • 基于python语音信号的抑郁症识别模型设计与应用
  • 基于python语音信号的呼吸道疾病诊断模型设计
  • 西城网站建设余姚电商交易网站建设
  • 【交换机工作原理深度解析:从基础架构到前沿技术】
  • 学校培训网站建设网页设计师培训无锡
  • 「用Python来学微积分」12. 无穷小量和无穷大量
  • Elasticsearch从入门到进阶——搜索优化原理
  • 农田、果园与灌区气象监测的技术应用与实践价值
  • php做网站好吗wordpress博客非插件
  • 继承(2),咕咕咕!
  • C++编程技巧和规范_9_引用计数解析
  • android11禁止安装apk
  • 深入了解linux网络—— 自定义协议(下)
  • 金麦建站官网成都视频剪辑培训
  • 【C++闯关笔记】详解多态
  • 数据库技术指南(二):MySQL CURD 与高级查询实战
  • 用mvc做网站报告做做做网站
  • 设置一个自定义名称的密钥,用于 git 仓库上下传使用
  • MAC Flood与ARP Flood攻击区别详解
  • 高兼容与超低延迟:互联网直播点播平台EasyDSS直播服务如何成为直播点播应用的“技术底座”?
  • MongoDB 集群优化实战指南
  • wordpress网站速度检测医院做网站需要多少钱
  • iOS 26 查看电池容量与健康状态 多工具组合的工程实践
  • 机器学习(10)L1 与 L2 正则化详解
  • 保险网站建设平台与别人相比自己网站建设优势
  • vscode中好用的插件
  • PCB过电流能力
  • 【数据库】KingbaseES数据库:首个多院区异构多活容灾架构,浙人医创新开新篇
  • 嵌入式软件算法之PID闭环控制原理