2025年Mathorcup大数据赛B题思路
数模应用平台
https://www.coze.cn/store/project/7548130644564688906

第三个板块这样填写,后续解答基本没啥问题,这道题实现比较简单,可以用这块AI应用水水论文,解答出来的模型和代码有很高的参考价值

第三个板块中前三问分别填写内容:
问题一重点在标注“合理诉求”、“诉求偏高”、“严重超额”标签,本问需要建立两个阈值函数,分别是“合理诉求”与“诉求偏高”和“诉求偏高”与“严重超额”的阈值函数,阈值函数的核心公式选用逻辑归回,不要用过于简单的线性回归,阈值函数输入是“索赔金额”和“实际赔付金额”,输出标注结果。阈值函数中的参数通过智能优化算法进行寻优,约束条件以及目标函数的建立需结合下面的背景“一般来说,“严重超额”的运单占比不会太高(通常小于 3%),“合理诉求”的运单不低于 85%。风险标注结果同时与索赔差额和实际赔付金额有关。实际赔付金额越高,则需要更高的索赔差额才会标注为“诉求偏高”或“严重超额”。对于相似实际赔付金额的运单标注时,分成同一类的运单,其索赔差额应尽可能接近。需要注意的是,一般来说“合理诉求”的运单索赔差额相对密集,“严重超额” 的运单索赔差额相对稀疏,且不同类型的运单索赔差额密集程度之间存在明显差别。”
附件1中最后一列“实际赔付金额”是因变量,其余为自变量,我认为要对指标进行筛选再解决问题二要求,指标有字符型、整数型、浮点型,首先剔除掉中有缺失值的指标,然后通过T检验、F检验、单因素方差分析等计算剩余的自变量指标与因变量的显著影响关系,字符型、整数型、浮点型的指标应当选择的显著性检验方法有所不同,在获得显著影响的指标后,接下来的预测模型可选择几种机器学习算法进行对比,用附件1中的数据进行训练和测试,最后选择效果最好的,然后预测出附件2每行的“实际赔付金额”
问题一得到了分类结果,问题二补充了附件2中每个样本的“实际赔付金额”,本问则是训练分类模型,问题一的分类主要用到了“索赔金额”和“实际赔付金额”,我认为本问还可以再扩充一下变量,可以分析下问题二中找到的显著影响的指标的实际意义,选择性纳入到分类模型的训练中来,接下来就是以分类结果为因变量,“索赔金额”和“实际赔付金额”以及补充指标为自变量,进行训练和误差分析,同样本问也可选择几种机器学习算法进行对比
第二、三板块解答展示







