当前位置: 首页 > news >正文

SQL实战:04之SQL中的分组问题求解

文章目录

  • 概述
  • 题目:分组问题求解
  • 题解
    • 第一步:求解差值
    • 步骤二:窗口分组累加
    • 完整SQL
  • 总结

概述

最近刷题时遇到一些比较有意思的题目,乍一遇上时还不知道怎么求解,在灵光一闪时找到了问题的求解答案,感觉还比较有意思。题目虽然不是很难,但是要解答出来还是需要有一点思维的转弯,为了加深记忆,就选取了一道记录下来。

题目:分组问题求解

如下为电商公司用户访问时间数据,某个用户连续的访问记录如果时间间隔小于 60 秒,则分为同一个组.

表logs

字段名数据类型
idbigint
tsbigint

输入数据如下:

idts(秒)
100117523641234
100117523641256
100217523641278
100117523641334
100217523641434
100117523641534
100117523641544
100217523641634
100117523641638
100117523641654

参考结果:

idts(秒)group
1001175236412341
1001175236412561
1001175236413342
1001175236415343
1001175236415443
1001175236416384
1001175236416544
1002175236412781
1002175236414342
1002175236416343

题解

第一步:求解差值

因为需要按照id分组,求解每个用户连续访问时间间隔小于60秒,则放在同一组,所以需要使用窗口函数,将上一行的ts移动到下一行,进行差值运算。
需要用到的知识点:

  • PARTITION BY
  • LAG():下移值
WITH temp_001 AS (SELECT id,ts,ts - LAG(ts,1,ts) OVER (PARTITION BY id ORDER BY ts ASC) AS ts_diffFROM logs
)

输出如下:

idtsts_diff
10011752364123417523641234
10011752364125622
10011752364133478
100117523641534200
10011752364154410
10011752364163894
10011752364165416
10021752364127817523641278
100217523641434156
100217523641634200

步骤二:窗口分组累加

由上面的中间结果我们已经得出了一个ts的差值ts_diff,按照滑动 窗口顺序遍历窗口中的每一行数据,如果ts_diff的值大于指定的值60,则加1,否则加0。

第一行ts_diff的值大于60,则加1结果是1,然后第二行值为22加0,值还是为1

第二行和第一行的分组id就都是1了,分在了同一组达到了我们想要的效果。

第三行ts_diff的值是78大于60,加1结果为2,组的ID变成了2。

其他的依次如上。

SQL实现:

SELECT id,ts,SUM(IF(ts_diff>60,1,0)) OVER(PARTITION BY id  ORDER BY ts ASC) AS group
FROM temp_001

输出结果:

idts(秒)group
1001175236412341
1001175236412561
1001175236413342
1001175236415343
1001175236415443
1001175236416384
1001175236416544
1002175236412781
1002175236414342
1002175236416343

完整SQL

WITH temp_001 AS (SELECT id,ts,ts - LAG(ts,1,ts) OVER (PARTITION BY id ORDER BY ts ASC) AS ts_diffFROM logs
)
SELECT id,ts,SUM(IF(ts_diff>60,1,0)) OVER(PARTITION BY id  ORDER BY ts ASC) AS group
FROM temp_001;

总结

这道题考察的知识点就是对窗口的理解和运用,第一步下移并做差值运算一般都可以快速想到,第二步就需要一点点思维的闪光。利用IF做归一话处理并使用滑动窗口求和得到分组的组号。

相关文章:

  • VPN访问SAP组服务器报登陆负载均衡错误88:无法连接到消息服务器(RC=9)
  • 机器学习day4-Knn+交叉验证api练习(预测facebook签到位置)
  • AI工具 Trae 创建java项目和配置运行环境完整示例
  • js day9
  • Lightroom 2025手机版:专业编辑,轻松上手
  • java发送邮件
  • 共探蓝海赛道增长新方法 阿里国际站智能AI全球买家分析峰会在深落幕
  • kubelet 清理资源以缓解磁盘压力
  • 队列优化dp || 线段树优化dp
  • 探索豆包WEB/PC超能创意1.0:创意新利器的全面解析
  • 【力扣/代码随想录】哈希表
  • DTO,VO,PO,Entity
  • shell(4)
  • Linux环境变量的作用以及进程的虚拟地址原理
  • 关于php-fpm的调优和配置
  • [官方 IP] XPM_CDC
  • Origin绘图——多标签散点图优化(蜂群图)
  • C#里创建一个TCP客户端连接类
  • FastGPT部署的一些问题整理
  • 第一个机器人程序
  • 王沪宁主持召开全国政协主席会议
  • 外交部亚洲司司长刘劲松向菲方严肃交涉
  • 俄宣布停火三天,外交部:希望各方继续通过对话谈判解决危机
  • 外交部:美方应在平等、尊重和互惠的基础上同中方开展对话
  • 全国电影工作会:聚焦扩大电影国际交流合作,提升全球影响力
  • 马上评丨机械停车库成“僵尸库”,设计不能闭门造车