当前位置: 首页 > news >正文

Spark SQL 桶抽样(Bucket Sampling)

目录

  • 前言:
  • 语法:
  • 示例:

前言:

在Spark SQL中,桶抽样(Bucket Sampling)是一种基于哈希分桶的抽样方法,它可以将数据划分为若干个桶(bucket),然后抽取其中一个或多个桶的数据作为样本。桶抽样有两种主要形式:
基于分桶列(Bucketed Column)的抽样:这种抽样要求表本身是分桶表(Bucketed Table),并且抽样是基于分桶时指定的列进行的。
基于任意列的随机抽样:使用TABLESAMPLE语法,可以基于随机函数(如rand())或指定列进行分桶抽样,即使表不是分桶表也可以使用。

这里我们主要讨论第二种,即使用TABLESAMPLE (BUCKET x OUT OF y ON expr)语法,其中expr可以是列名,也可以是随机函数(如rand())。

语法:

SELECT ...
FROM table_name
TABLESAMPLE (BUCKET x OUT OF y [ON colname | rand()])

解释:
x:抽取的桶编号,从1开始。
y:总桶数。
ON后面的表达式:可以是某个列名,也可以是一个随机函数(如rand())。如果是列名,那么会根据该列的哈希值进行分桶抽样;如果是rand(),则使用随机分桶(每次运行不同,除非指定种子),如果使用rand(seed)则可以重复抽样。

注意:
桶抽样是精确抽样,它将数据分成y个桶,然后抽取第x个桶。
当使用列名进行分桶抽样时,具有相同列值的行会进入同一个桶,这样可以保证具有相同关键字的行被一起抽样或不被抽样。
当使用rand()时,则是随机将行分配到各个桶中,每次运行会因为随机性而不同。

示例:

示例1:基于某个列(如user_id)进行桶抽样,保证相同user_id的行在同一个桶中:

sql
SELECT * 
FROM sales 
TABLESAMPLE (BUCKET 1 OUT OF 10 ON user_id);

这将数据分成10个桶,然后抽取第1个桶的数据。同一个user_id的所有行都会被分到同一个桶中,因此要么全部被抽中,要么全部不被抽中。

示例2:基于随机函数进行桶抽样(每次运行结果随机):

sql
SELECT * 
FROM sales 
TABLESAMPLE (BUCKET 1 OUT OF 10 ON rand());

同样分成10个桶,抽取第1个桶,但是行是随机分配的。

示例3:可重复的随机抽样(通过指定随机种子):

sql
SELECT * 
FROM sales 
TABLESAMPLE (BUCKET 1 OUT OF 10 ON rand(42));

这样,每次运行都会得到相同的抽样结果。

示例4:抽取多个桶:例如,抽取前3个桶(即30%的数据):
使用WHERE子句配合取模运算(前提是抽样表达式相同):

sql
SELECT *
FROM (SELECT *, abs(hash(rand(42))) % y AS bucket_idFROM sales
) tmp
WHERE bucket_id IN (0, 1, 2);   -- 注意:桶的编号在0到y-1之间?

但是要注意,TABLESAMPLE的分桶编号是从1开始,而自己计算哈希取模通常是0到y-1。所以需要调整。

http://www.dtcms.com/a/395015.html

相关文章:

  • 常见的【垃圾收集算法】
  • 如何解决 pip install 安装报错 ModuleNotFoundError: No module named ‘django’ 问题
  • jvm之【垃圾回收器】
  • Tomcat基础知识
  • Will、NGC游戏模拟器 Dolphin海豚模拟器2509最新版 电脑+安卓版 附游戏
  • ELK企业级日志分析系统详解:从入门到部署实践
  • 2025年Spring Security OAuth2实现github授权码模式登录
  • Kafka面试精讲 Day 22:Kafka Streams流处理
  • ELK大总结20250922
  • 基于Hadoop生态的汽车全生命周期数据分析与可视化平台-基于Python+Vue的二手车智能估价与市场分析系统
  • 基于TV模型利用Bregman分裂算法迭代对图像进行滤波和复原处理
  • 利用 Perfmon.exe 与 UMDH 组合分析 Windows 程序内存消耗
  • hello算法笔记 02
  • 二级域名解析与配置
  • 如何学习国库会计知识
  • 【读论文】压缩双梳光谱技术
  • Spark Structured Streaming端到端延迟优化实践指南
  • 【.NET实现输入法切换的多种方法解析】,第566篇
  • 性能测试-jmeter13-性能资源指标监控
  • 基于华为openEuler系统安装PDF查看器PdfDing
  • PyTorch 神经网络工具箱核心知识梳理
  • 【LangChain指南】Agents
  • Linux 的进程信号与中断的关系
  • IS-IS 协议中,是否在每个 L1/L2 设备上开启路由渗透
  • pycharm常用功能及快捷键
  • 滚珠导轨在半导体制造中如何实现高精度效率
  • 如何实现 5 μm 精度的视觉检测?不仅仅是相机的事
  • JavaScript学习笔记(六):运算符
  • Jenkins运维之路(制品上传)
  • 20届-高级开发(华为oD)-Java面经