Datawhale AI夏令营——用AI预测新增用户学习笔记
一、跟着教程来跑通Baseline
Baseline (基线)是一个基础的解决方案,通常由竞赛组织者或社区提供,用于展示如何完成从数据处理到模型训练再到结果输出的整个流程。
代码采用Python编写, 使用了Pandas进行数据处理、LightGBM作为分类模型,并结合了交叉验证和简单的特征工程,最终可获得约 0.6左右 的分数。
二、优化
需要明白几个关键名词
特征工程:提取时间特征(如时段、停留时长等)
阈值优化:基于F1-score动态调整分类阈值,0.5不一定最优,可以进行调参来优化
K折交叉验证:采用分层抽样(Stratified Sampling)的变种,即 StratifiedKFold,是一种用于评估机器学习模型性能的技术。它通过将数据集划分为N个子集或“折”,并在不同的子集上训练和验证模型来实现对模型性能的稳定估计。
那么,我们可以从这几个关键点来入手调参
三、进阶上分
我调整了五折交叉验证里的模型训练,让他跑多几千次,能够提高正确率,最后,F1-score从0.69342提升到了0.82515
若有不正确的地方,希望各位批评指正!!也欢迎大家来交流!!