当前位置: 首页 > wzjs >正文

免费的网页网站做一件代发的网站

免费的网页网站,做一件代发的网站,谷歌seo一个月费用需要2万吗,个人网页制作模板免费Datawhale AI夏令营第一期(机器学习方向)Task2笔记:用户新增预测挑战赛——从业务理解到技术实现 一、任务核心:业务与技术的“翻译” 本次Task聚焦“用户新增预测挑战赛”的核心逻辑,核心目标是锻炼“将业务问题转化为…

Datawhale AI夏令营第一期(机器学习方向)Task2笔记:用户新增预测挑战赛——从业务理解到技术实现

一、任务核心:业务与技术的“翻译”

本次Task聚焦“用户新增预测挑战赛”的核心逻辑,核心目标是锻炼“将业务问题转化为AI技术问题”的能力,具体包含两大能力:

  • 业务透视眼:从“识别新增用户”的业务需求倒推特征设计逻辑
  • 数据诊断术:通过可视化等手段挖掘特征中的有效信息

二、赛题核心认知:二分类任务的本质

1. 任务定义

“用户新增预测挑战赛”是由科大讯飞主办的二分类任务,需基于用户行为数据预测用户是否为新增用户(目标字段is_new_did,1表示新增,0表示非新增),评价指标为F1分数(分数越高模型性能越好)。

2. 业务与技术价值

类型具体价值
行业价值精准预测用户增长趋势、优化产品迭代方向;降低用户获取成本;为AI落地提供量化依据
技术价值解决实际用户增长预测问题;验证AI在用户行为分析中的有效性;建立可复用方法论

3. 数据基础

  • 输入数据:包含15个原始字段的用户行为事件记录,核心字段包括:
    • did:用户唯一标识(关键)
    • common_ts:事件发生时间戳(时间特征来源)
    • udmap:事件自定义属性(JSON格式,含助手/插件ID)
    • 其他字段:设备品牌、网络类型、地域信息等基础属性
  • 输出要求:CSV文件,仅含is_new_did列(值为0或1)

4. 数据关键特征(探索发现)

  • 测试集中93%的用户(did)出现在训练集中(可直接复用已知标签)
  • 训练集中88%的用户标签为0(正负样本不平衡)
  • 事件级数据需转化为用户级特征(需按did聚合)

三、解题核心:要点、难点与思路

1. 核心要点与难点

类别具体内容
核心要点从事件级数据提取用户级特征;处理高维稀疏特征;平衡正负样本;捕捉时间敏感特征
难点用户行为聚合(事件→用户);高维稀疏特征处理;样本不平衡;时间模式捕捉

2. 基础解题思路

  • 模型选择:优先树模型(如LightGBM),原因是训练速度快、对高维稀疏特征处理友好
  • 特征方向:时间特征(时段、行为间隔等)、用户行为聚合特征(行为次数、首次/末次行为时间等)
  • 样本处理:利用“测试集与训练集用户重叠”特性——已知标签直接复用,未知标签建模预测

四、Baseline方案:从设计到实现

1. 方案设计逻辑

模块具体设计依据/优势
特征设计提取时间特征(时段、停留时长等)符合用户行为分析理论,捕捉行为模式
模型选择LightGBM稳定性高、训练效率快、对预处理需求低
验证方法五折交叉验证避免单次验证的随机性,提升模型评估可靠性
阈值优化基于F1-score动态调整阈值平衡精确率与召回率,适配样本不平衡场景

2. 核心优势与待改进点

类别具体内容
方案优势- 采用五折目标编码,避免数据泄露
- 基于LightGBM的并行训练,速度比XGBoost快3-5倍
待改进点- udmap(JSON字段)未充分解析
- 缺乏特征重要性筛选
- 未处理设备品牌长尾分布

3. 核心代码逻辑

(1)交叉验证建模

通过分层K折(Stratified K-Fold)确保各折中正负样本比例一致,结合早停机制(early stopping)防止过拟合:

n_folds = 5
kf = StratifiedKFold(n_splits=n_folds, shuffle=True, random_state=42)for fold, (train_idx, val_idx) in enumerate(kf.split(X_train, y_train)):X_tr, X_val = X_train.iloc[train_idx], X_train.iloc[val_idx]y_tr, y_val = y_train.iloc[train_idx], y_train.iloc[val_idx]# 创建数据集train_set = lgb.Dataset(X_tr, label=y_tr)val_set = lgb.Dataset(X_val, label=y_val)# 模型训练(早停机制)model = lgb.train(params, train_set,num_boost_round=5000,valid_sets=[train_set, val_set],callbacks=[lgb.early_stopping(stopping_rounds=200), lgb.log_evaluation(200)])
(2)阈值优化(最大化F1)

默认0.5阈值未必最优,针对正样本稀少场景(如本任务),在0.1-0.4范围搜索最优阈值:

def find_optimal_threshold(y_true, y_pred_proba):best_threshold = 0.5best_f1 = 0# 聚焦正样本稀少场景的候选阈值for threshold in [0.1, 0.15, 0.2, 0.25, 0.3, 0.35, 0.4]:y_pred = (y_pred_proba >= threshold).astype(int)f1 = f1_score(y_true, y_pred)if f1 > best_f1:best_f1 = f1best_threshold = thresholdreturn best_threshold, best_f1

五、上分思路:快速提升方向

1. 特征工程优化

  • 解析udmap:提取JSON中的botIdpluginId,构建用户使用的助手/插件数量、类型等特征
  • 时间特征深化:用户首次/末次行为时间、行为间隔、活跃时段分布(如是否在工作日活跃)
  • 用户行为聚合:按did聚合事件,计算行为次数、涉及模块/事件类型数量等

2. 数据利用优化

  • 复用已知标签:测试集中与训练集重叠的did,直接使用训练集标签(无需预测)
  • 处理长尾分布:对设备品牌等长尾特征进行分组(如合并低频品牌为“其他”)

3. 模型与验证优化

  • 特征筛选:基于特征重要性剔除无效特征,减少噪声
  • 样本平衡:采用SMOTE等方法处理正负样本不平衡(需注意避免数据泄露)
  • 模型融合:结合LightGBM与XGBoost、CatBoost等模型的预测结果

六、总结与收获

本次Task通过“用户新增预测”案例,系统学习了从业务理解到技术实现的全流程:

  1. 明确二分类任务的核心是“平衡精确率与召回率”(F1指标的意义)
  2. 掌握了基于用户行为数据的特征设计逻辑(时间特征、聚合特征)
  3. 理解了Baseline方案的设计思路(模型选择、交叉验证、阈值优化)
  4. 获得了上分的具体方向(特征深化、数据复用、模型优化)

后续将基于这些思路,进一步实践进阶的特征工程与模型调优方法。


文章转载自:

http://lzhzdnXL.mwpcp.cn
http://fwRuAVwQ.mwpcp.cn
http://VIBhvrmg.mwpcp.cn
http://0GjkBb6P.mwpcp.cn
http://DxxCRcRy.mwpcp.cn
http://L5zUVuN3.mwpcp.cn
http://2znYUqgY.mwpcp.cn
http://MfX83aYT.mwpcp.cn
http://IQd7cqvf.mwpcp.cn
http://ShSkqoeb.mwpcp.cn
http://BTIgGgff.mwpcp.cn
http://xPNZdIae.mwpcp.cn
http://AdiAxkew.mwpcp.cn
http://UKnjwBi3.mwpcp.cn
http://LJcbP8zN.mwpcp.cn
http://f5xrrGm9.mwpcp.cn
http://Jbm5jFWV.mwpcp.cn
http://P9iDj6rF.mwpcp.cn
http://orh09cKa.mwpcp.cn
http://E2301tFM.mwpcp.cn
http://Deq6VuPw.mwpcp.cn
http://Hef7xgd5.mwpcp.cn
http://6sOwlYrU.mwpcp.cn
http://sK8DQh0g.mwpcp.cn
http://PsL2KBns.mwpcp.cn
http://svt3FzgY.mwpcp.cn
http://XQdgvuKr.mwpcp.cn
http://DpS1D0qa.mwpcp.cn
http://efSOQL37.mwpcp.cn
http://pexaXzwh.mwpcp.cn
http://www.dtcms.com/wzjs/725032.html

相关文章:

  • 网站功能建设中企业寻找客户有哪些途径
  • 天津做网站的费用建设网站视频教程
  • 谁有好的网站推荐一个东莞服务公司网站建设
  • 可信网站免费认证凡科和有赞哪个好用
  • 推荐一些做网站网络公司二手房公司如何做网站
  • 湖南网站推丰台怎样做网站
  • 支付宝签约网站wordpress 制作下载
  • 西安网站排名优化wordpress 中文 主题
  • 惠阳住房与规划建设局网站黔彩终端效果图
  • 给公司做网站百度指数有哪些功能
  • 上海电商网站设计p站代理网址
  • 微网站建设开发工具北京展柜设计制作公司
  • 高中作文网站眉山注册公司流程和费用
  • dedecms 网站地图xmlwordpress云播放
  • 网站中信息更新怎么做的四川工程造价信息网
  • 网站代备案系统做网站都去哪申请网址
  • 合肥的网站建设公司做企业网站的尺寸是多少
  • 温岭 网站制作搜索引擎营销方式
  • 网站需要怎么优化比较好wordpress 静态发布
  • 城口网站建设做盗版视频网站犯法吗
  • 手机要访问国外网站如何做衡水网站推广公司
  • 铜川网站建设公司电话什么网站不用备案
  • 网站制作公司都还赚钱吗网页设计制作公司报价
  • php 资讯网站苏州市建设厅网站首页
  • python网站开发 django网络推广工作好干吗
  • 网站建设目的意义互联网公司排名类比
  • 徐州网站建设找哪家企业为什么做网站系统
  • 网站提交至google个体工商户经营范围网站开发
  • 西安企业网站设计公司南充移动网站建设
  • fw可以做网站自己做网站 发布视频教程