当前位置: 首页 > news >正文

Datawhale AI夏令营——用AI预测新增用户学习笔记

一、跟着教程来跑通Baseline

        Baseline (基线)是一个基础的解决方案,通常由竞赛组织者或社区提供,用于展示如何完成从数据处理到模型训练再到结果输出的整个流程。

        代码采用Python编写, 使用了Pandas进行数据处理、LightGBM作为分类模型,并结合了交叉验证和简单的特征工程,最终可获得约 0.6左右 的分数。

二、优化

        需要明白几个关键名词

        特征工程:提取时间特征(如时段、停留时长等)

        阈值优化:基于F1-score动态调整分类阈值,0.5不一定最优,可以进行调参来优化

        K折交叉验证:采用分层抽样(Stratified Sampling)的变种,即 StratifiedKFold,是一种用于评估机器学习模型性能的技术。它通过将数据集划分为N个子集或“折”,并在不同的子集上训练和验证模型来实现对模型性能的稳定估计。

        那么,我们可以从这几个关键点来入手调参

三、进阶上分

        我调整了五折交叉验证里的模型训练,让他跑多几千次,能够提高正确率,最后,F1-score从0.69342提升到了0.82515

若有不正确的地方,希望各位批评指正!!也欢迎大家来交流!!

http://www.dtcms.com/a/277979.html

相关文章:

  • 【VLLM】大模型本地化部署
  • 【图片识别内容改名】用图片的内容改图片文件的名字,批量OCR识别图片上的文字并同时进行批量改名的操作步骤和注意事项
  • 深入了解JAVA中Synchronized
  • MD5算法深度剖析与可视化解析
  • Kubernetes集群安装
  • Codeforces Round 1032 (Div. 3)(A-G)
  • 嵌入式 Linux开发环境构建之安装 Samba
  • Wireshark的安装和基本使用
  • C语言---自定义类型(上)(结构体类型)
  • Vue Router 完全指南:从入门到实战,高效管理前端路由
  • C++高频知识点(十二)
  • 【LeetCode数据结构】单链表的应用——反转链表问题、链表的中间节点问题详解
  • 通信原理与USRP :PSK的调制解调(BPSK、QPSK、16PSK) 文本、图片
  • Struts2框架对重定向URL处理不当导致的OGNL注入漏洞(s2-057)
  • 【LeetCode 热题 100】105. 从前序与中序遍历序列构造二叉树——(解法二)O(n)
  • SSE连接错误机制处置
  • lvs负载均衡实操模拟
  • docker高级管理——Compose容器编排与私有仓库
  • 基于YOLOv11的无人机目标检测实战(Windows环境)
  • 小程序部分pai
  • 深度剖析:自定义线程安全 ppp::function 实现 vs std::function
  • 黑洞是什么?
  • 苍穹外卖Day3
  • python kivy 打包apk
  • 基于手势识别完成ESP32C3控制8位继电器实现智能鱼缸整体方案设计
  • “找到一个或多个多重定义的符号“(LNK2005 或 LNK1169)
  • JAVA 反射总结
  • 开源工具DeepFilterNet:实时语音降噪
  • SQL的初步学习(二)(以MySQL为例)
  • 第四章 城市给水排水处理厂站工程