当前位置: 首页 > news >正文

公司做网站找谁公司做网站找谁网站信息评估抽查

公司做网站找谁公司做网站找谁,网站信息评估抽查,哪有学ui设计培训学校,手机端什么可以替代迅雷根据训练集中的时间规则,对测试集中的数据推断用户标签(新用户或老用户)。 时间规则如下: 针对训练集和测试集中都存在的did: 找到在训练集中标记为新用户最晚的时间点,则测试集中对应did的数据在此时间点前全部为新用…

根据训练集中的时间规则,对测试集中的数据推断用户标签(新用户或老用户)。

时间规则如下:
针对训练集和测试集中都存在的did:
找到在训练集中标记为新用户最晚的时间点,则测试集中对应did的数据在此时间点前全部为新用户;
找到在训练集中标记为老用户最早的时间点,则测试集中对应did的数据在此时间点后全部为老用户;

具体实现代码如下:

1.1参数说明

  • train_df: 训练集DataFrame,包含已知的用户标签(is_new_did
  • test_df: 测试集DataFrame,需要推断用户标签

1.2寻找共同DID

train_dids = set(train_df['did'].unique())
test_dids = set(test_df['did'].unique())
common_dids = train_dids.intersection(test_dids)

功能说明

  • 提取训练集和测试集中的唯一设备ID(DID)
  • 找出两个集合的交集,即同时出现在训练集和测试集中的DID
  • 只有共同的DID才能应用时间规则

2.2 计算时间规则

# 新用户:找每个DID作为新用户时的最大时间戳
new_user_times = train_common[train_common['is_new_did'] == 1].groupby('did')['common_ts'].max()# 老用户:找每个DID作为老用户时的最小时间戳
old_user_times = train_common[train_common['is_new_did'] == 0].groupby('did')['common_ts'].min()

时间规则逻辑

  1. 新用户规则

    • 对于每个DID,找出它在训练集中被标记为新用户(is_new_did=1)的最晚时间戳
    • 推断:如果测试集中该DID的时间戳 < 这个最晚时间戳,则为新用户
  2. 老用户规则

    • 对于每个DID,找出它在训练集中被标记为老用户(is_new_did=0)的最小时间戳
    • 推断:如果测试集中该DID的时间戳 > 这个最小时间戳,则为老用户

1.3 应用规则

应用新用户规则:
mask_new = (test_with_new_rules['max_new_time'].notna()) & \(test_with_new_rules['common_ts'] < test_with_new_rules['max_new_time'])
test_df.loc[mask_new, 'is_new_did'] = 1

判断条件

  • 该DID存在新用户规则(max_new_time不为空)
  • 测试集中的时间戳小于新用户的最大时间戳
应用老用户规则:
mask_old = (test_with_old_rules['min_old_time'].notna()) & \(test_with_old_rules['common_ts'] > test_with_old_rules['min_old_time']) & \(test_with_old_rules['is_new_did'] == -1)

判断条件

  • 该DID存在老用户规则(min_old_time不为空)
  • 测试集中的时间戳大于老用户的最小时间戳
  • 该记录尚未被标记(is_new_did == -1

1.4 性能优化

使用DataFrame的merge操作批量应用规则,而不是逐行遍历,提高了处理效率:

test_with_new_rules = test_df.merge(new_user_rules_df, on='did', how='left'
)

4. 时间线示例

假设某个DID在训练集中的记录:

时间轴: |---新用户期---[T1]---老用户期---|↑               ↑                ↑最早记录          转换点          最新记录
  • T1之前:标记为新用户(is_new_did=1)
  • T1之后:标记为老用户(is_new_did=0)

对于测试集中的该DID:

  • 如果时间 < T1:根据新用户规则,标记为新用户
  • 如果时间 > T1:根据老用户规则,标记为老用户

计算结果如下:

DID统计:
训练集唯一DID: 270,837
测试集唯一DID: 206,342
共同DID: 192,393

计算时间规则…
新用户规则数: 57,787
老用户规则数: 162,173

批量应用规则…

规则应用结果:
通过规则1确定(新用户): 150,714
通过规则2确定(老用户): 882,188
总确定数量: 1,032,902 (90.34%)
未确定数量: 110,407 (9.66%)

将测试集中未确定是新老用户的数据全部计为老用户,F1Score可达0.92以上

关于检查训练集中是否存在对于同一个did,新用户数据出现在老用户之后的情况,请在评论区获取相关解答!

http://www.dtcms.com/a/504258.html

相关文章:

  • wordpress网站添加密码访问营销微网站建设公司
  • 吴恩达新课程:Agentic AI(笔记2)
  • 用dw怎么做网站留言板重庆重庆网站建设
  • 家具网站开发目的wordpress页脚太高
  • 西南交通建设集团股份有限公司网站带分期功能的网站建设
  • 姚期智京都奖( 2021)演讲:做研究最好的方法是提出深刻、大胆和关键性的问题
  • 商务网站创建经费预算wordpress打开文章响应慢
  • arthas简介
  • 企业网站源码交易国产wordpress主题
  • 做网站要学什么c语言西安网站建设求职简历
  • 用阿里云服务器做自己购物网站wordpress多人聊天室
  • sm2025 模拟赛16 (2025.10.11)
  • 国内网站建设流程淘宝店标logo在线制作免费
  • 长沙市做网站公司排名广州做网站好的公司
  • SQL Server数据查询语句
  • 给领导发网站建设可行性方案邮件怎么写wordpress 获取用户邮箱
  • SQL NULL 函数详解
  • Linux进程信号(壹)_产生信号
  • 关于茶文化网站建设的背景做全屏的网站 一屛多高
  • GIS与农业 考公考编面试 几个参考题
  • 百度网站的安全建设方案在wordpress中rss订阅的步骤是什么?
  • win2008sr怎么用iis做网站东乡族网站建设
  • 织梦新闻门户网站模板wordpress 4.7.0 漏洞
  • Easyx图形库应用(用lua开发图形界面)
  • 点餐小程序模板seo入门视频
  • 做简报的网站企业为何选择网站推广外包?
  • 很多年前的51网站江门网站建设方案
  • 郑州关键词排名顾问如何优化搜索引擎的准确性
  • GD32待机和深度睡眠模式的区别
  • 微网站怎么做企业网页制作推广