2025年泰迪杯数据挑战赛B题问题分析
【时间安排】
● 报名起讫时间:2024年3月8日—4月12日
● 开题时间:2024年3月8日 9:00:00(公布赛题和示例数据)
● 竞赛时间:2024年4月13日—4月26日(4月13日9:00:00 公布全部数据)
● 提交选题截止时间:2024年4月23日(16:00之前)
● 提交作品截止时间:2024年4月26日(16:00之前)
● 提交测试结果时间:2024年4月27日9:00—4月28日9:00(公布测试数据,提交测试结果)
● 网络评阅时间:2024年5月6日—5月26日
● 视频答辩时间:2024年6月1日
● 成绩公示时间:2024年6月3—5日
● 成绩公布时间:2024年6月6日
● 颁奖及赛题讲解时间:2024年7月(具体时间待定)
【竞赛奖励】
本次“泰迪杯”数据挖掘挑战赛共评出:
1、特等奖并获泰迪杯:3队,采用视频答辩的形式,由高校和企业专家综合评审,颁发“泰迪杯”数据挖掘挑战赛 特等并获企业冠名奖荣誉证书(电子证书)、出题企业冠名奖杯,并提供每队20000元奖金(需扣除个人所得税)。
2、 特等奖:3队,采用视频答辩的形式,由高校和企业专家综合评审,颁发“泰迪杯”数据挖掘挑战赛特等奖荣誉证书(电子证书),并提供每队10000元奖金(需扣除个人所得税)。
3、网宿创新奖:3队,采用视频答辩的形式,由高校和企业专家综合评审,颁发“泰迪杯”数据挖掘挑战赛“网宿创新奖”荣誉证书(电子证书),每队2000元奖金(需扣除个人所得税)。
4、一等奖:不超过2%,研究生组、本科组、专科组获奖队伍分别根据三个组别报名队伍比例计算,每个组别不少于一个队伍;颁发“泰迪杯”数据挖掘挑战赛一等奖荣誉证书(电子证书)。
5、二等奖:约5%,研究生组、本科组、专科组获奖队伍分别根据三个组别报名队伍比例计算,每个组别不少于一个队伍;颁发“泰迪杯”数据挖掘挑战赛二等奖荣誉证书(电子证书)。
6、三等奖:约10%,研究生组、本科组、专科组获奖队伍分别根据三个组别报名队伍比例计算,每个组别不少于一个队伍;颁发“泰迪杯”数据挖掘挑战赛三等奖荣誉证书(电子证书)。
摘要
随着科技的进步,加速度计,能够实时、准确地捕捉人体的动态变化,成为医学应用中的一个重要工具。本文将基于题目收集数据进行相关研究。
针对题目给出的数据集,我们首先进行数据清洗工作。首先利用df[df.isna().any(axis=1)]筛选含缺失值的行,并对所在行进行删除处理。对于处理后的结果,我们利用通过文献查询的理论存在极值,设定阈值进行异常值判定并删除其所在行。
针对问题一,单一利用时间差计算持续时间消耗资源太大,这里通过分析数据可以看出数据的采样率为100 Hz。因此,我们对最后MET值中不同类型进行计频处理。根据频数推算持续各状态的持续时间。
针对问题二,将处理后的数据集,进行合并为一个完整的数据集作为训练数据集,性别(Sex)和年龄(Age)为类别变量,加速度计数据作为输入数据,MET值作为输出数据,引入随机森林回归器、随机森林、支持向量机、多层感知机、GBDT进行训练模型,并利用RMSE对模型精度进行评估。则取精度最高的模型进行预测。基于得到的结果利用问题二中频数方式计算持续时长。
对于问题三,基于可穿戴设备采集的加速度计数据,旨在对个体睡眠状态进行阶段性识别。将所有数据进行汇总,并从中筛选出MET<1.0的数值,保证选取的数据集中包含与睡眠相关的测量。聚类模型对个体睡眠阶段进行智能识别,利用肘部法则自动寻优。构建智能识别模型,并进行应用。
针对问题四,基于加速度计数据的久坐行为健康预警方法。以附件2中志愿者加速度计数据作为输入,其中每条记录包含时间戳和经预测得到的MET值(MET_Pred)。通过计算相邻记录预测值的变化量来划分“段”(segment)。设置为排除短时的静止状态,仅考虑持续超过30分钟的行为段;久坐状态对应的MET值区间设定为[1.0,1.6]。并提取时域特征对于每个志愿者数据集,依照上述分段和久坐判定规则,识别出所有符合条件的连续久坐段。
关键词:近地小行星轨道预测、开普勒定律、最小二乘法、
5.1 数据预处理
针对题目给出的数据集,我们首先进行数据清洗工作。首先利用df[df.isna().any(axis=1)]筛选含缺失值的行,并对所在行进行删除处理。对于处理后的结果,我们利用通过文献查询的理论存在极值,设定阈值进行异常值判定并删除其所在行。
5.1.1 描述性分析
首先,我们利用给出的数据,进行给出数据特征的初步选择。
X、Y和Z轴的波动程度有所不同,这可能与志愿者在该时段进行的不同活动类型相关。较大的波动通常意味着较为剧烈的运动,而较小的波动则可能表明志愿者处于较为静止的状态。
5.1.2 缺失值处理
在本研究中,我们利用可穿戴设备采集的加速度计数据,旨在实现对个体运动状态的实时监测和后续健康行为分析。原始数据存储于CSV格式文件中,其中记录了时间戳和对应的三轴加速度值(X,Y,Z轴),这些数据反映了个体在空间中各个方向上的加速度信息。为保证数据处理的准确性和后续模型的鲁棒性,首先对数据进行预处理。预处理主要包括:
1.缺失值检查与清洗由于实际采集过程中可能存在数据丢失或异常情况,通过统计每个变量(time,)的缺失值个数,确定数据中存在缺失的记录。对于出现缺失值的行,采用剔除策略确保分析数据均为有效观测值。数学上,经过缺失值处理的数据集记为
2.数据采样考虑到连续采集的数据样本量巨大,为了降低可视化绘图与后续数据分析的计算成本,在保证数据整体趋势不丢失的前提下,采取均匀采样策略。具体方法为每隔固定步长(例如每100个样本取一个数据点),构造采样数据集:
5.1.3 异常值处理
阈值处理:查阅文献,找到理论存在X Y Z方向加速度最大值,将该值设定为阈值超过该数据的认定为异常数据,方便起见直接删除处理。
传感器量程 | 最大可记录加速度(每轴) |
±2g | 约±2 × 9.8 = ±19.6 m/s² |
±4g | 约±4 × 9.8 = ±39.2 m/s² |
±8g | 约±8 × 9.8 = ±78.4 m/s² |
±16g | 约±16 × 9.8 = ±156.8 m/s² |
理论上,根据牛顿第二定律以及地球重力加速度的参考值,常见的加速度值应落于合理范围内。在本研究中,将...作为加速度的理论上界(约为 2 倍标准重力加速度,即... ),以此为阈值检测异常数据。对于任一数据点,当任一方向上的加速度满足:
5.2 统计分析模型
对于问题一,单一利用时间差计算持续时间消耗资源太大,这里通过分析数据可以看出数据的采样率为100 Hz。因此,我们对最后MET值中不同类型进行计频处理。根据频数推算持续各状态的持续时间。
5.2.1 活动时长计量
针对每个志愿者(标识为P001至P100)的数据文件,本研究首先利用数据读取工具导入CSV数据,其中至少包含一个描述活动类型的"annotation"列。借助正则表达式提取每条记录中的MET数值,确保后续分类操作的准确性。
在分析过程中,将每个活动注解的出现频次视为该活动持续的时间片段。假定数据的采样率为 100 Hz ,即每 100 个连续记录视为 1 秒内的采样(或换算后为固定的时间长度),从而每个活动类型的频次累计可用于估算总持续时间。用数学表达式表示,若设对某一特定活动类型 ...的出现次数为,则活动持续时间(单位为秒)为:
类型名称 | 出现次数 |
7030 sleeping;MET 0.95 | 3810002 次 |
home activity;eating;13030 eating sitting alone or with someone;MET 1.5 | 74004 次 |
home activity;household chores;preparing meals/cooking/washing dishes;5035 kitchen activity general cooking/washing/dishes/cleaning up;MET 3.3 | 954511 次 |
home activity;miscellaneous;sitting;11580 office work such as writing and typing (with or without eating at the same time);MET 1.5 | 144105 次 |
home activity;miscellaneous;sitting;9055 sitting/lying talking in person/using a mobile phone/smartphone/tablet or talking on the phone/computer (skype chatting);MET 1.5 | 308709 次 |
home activity;miscellaneous;sitting;9060 sitting/lying reading or without observable/identifiable activities;MET 1.3 | 338112 次 |
home activity;miscellaneous;standing;9050 standing talking in person on the phone/computer (skype chatting) or using a mobileo phone/smartphone/tablet;MET 1.8 | 7501 次 |
home activity;miscellaneous;standing;9050 standing talking in person/on the phone/computer (skype chatting) or using a mobile phone/smartphone/tablet;MET 1.8 | 49103 次 |
ID | TotalTime | SleepTime | HighIntensityTime | ModerateIntensityTime | LowIntensityTime | StaticActivityTime |
P001 | 24.7159 | 10.5833 | 0 | 3.7303 | 3.0009 | 7.4013 |
P002 | 16.1406 | 6.25 | 0.3567 | 1.1702 | 1.8108 | 6.5529 |
P003 | 20.5242 | 6.6667 | 0 | 6.7723 | 2.7376 | 4.3476 |
P004 | 18.9362 | 6.5 | 0 | 2.5809 | 3.1359 | 6.7194 |
P005 | 17.0661 | 4.3333 | 0 | 1.8884 | 3.9005 | 6.9439 |
可以直观地看出各个受试者或各个时间段之间的MET差异。柱状图则展示了不同强度运动时长的对比情况,橙色、红色、蓝色等不同颜色柱状分别代表高强度、中强度、低强度、静态或睡眠等类别,由此可以观察每个受试者或不同时间段内各活动类型所占用的时间比例,
5.3 MET 值估计模型
将处理后的数据集,进行合并为一个完整的数据集作为训练数据集,性别(Sex)和年龄(Age)为类别变量,加速度计数据作为输入数据,MET值作为输出数据,引入随机森林回归器、随机森林、支持向量机、多层感知机、GBDT进行训练模型,并利用RMSE对模型精度进行评估。则取精度最高的模型进行预测。基于得到的结果利用问题二中频数方式计算持续时长。
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓