当前位置：首页 > news >正文

Spark SQL 桶抽样（Bucket Sampling）

news 2025/9/23 8:09:44

前言:

在Spark SQL中，桶抽样（Bucket Sampling）是一种基于哈希分桶的抽样方法，它可以将数据划分为若干个桶（bucket），然后抽取其中一个或多个桶的数据作为样本。桶抽样有两种主要形式：
基于分桶列（Bucketed Column）的抽样：这种抽样要求表本身是分桶表（Bucketed Table），并且抽样是基于分桶时指定的列进行的。
基于任意列的随机抽样：使用TABLESAMPLE语法，可以基于随机函数（如rand()）或指定列进行分桶抽样，即使表不是分桶表也可以使用。

这里我们主要讨论第二种，即使用TABLESAMPLE (BUCKET x OUT OF y ON expr)语法，其中expr可以是列名，也可以是随机函数（如rand()）。

语法：

SELECT ...
FROM table_name
TABLESAMPLE (BUCKET x OUT OF y [ON colname | rand()])

解释：
x：抽取的桶编号，从1开始。
y：总桶数。
ON后面的表达式：可以是某个列名，也可以是一个随机函数（如rand()）。如果是列名，那么会根据该列的哈希值进行分桶抽样；如果是rand()，则使用随机分桶（每次运行不同，除非指定种子），如果使用rand(seed)则可以重复抽样。

注意：
桶抽样是精确抽样，它将数据分成y个桶，然后抽取第x个桶。
当使用列名进行分桶抽样时，具有相同列值的行会进入同一个桶，这样可以保证具有相同关键字的行被一起抽样或不被抽样。
当使用rand()时，则是随机将行分配到各个桶中，每次运行会因为随机性而不同。

示例：

示例1：基于某个列（如user_id）进行桶抽样，保证相同user_id的行在同一个桶中：

sql
SELECT * 
FROM sales 
TABLESAMPLE (BUCKET 1 OUT OF 10 ON user_id);

这将数据分成10个桶，然后抽取第1个桶的数据。同一个user_id的所有行都会被分到同一个桶中，因此要么全部被抽中，要么全部不被抽中。

示例2：基于随机函数进行桶抽样（每次运行结果随机）：

sql
SELECT * 
FROM sales 
TABLESAMPLE (BUCKET 1 OUT OF 10 ON rand());

同样分成10个桶，抽取第1个桶，但是行是随机分配的。

示例3：可重复的随机抽样（通过指定随机种子）：

sql
SELECT * 
FROM sales 
TABLESAMPLE (BUCKET 1 OUT OF 10 ON rand(42));

这样，每次运行都会得到相同的抽样结果。

示例4：抽取多个桶：例如，抽取前3个桶（即30%的数据）：
使用WHERE子句配合取模运算（前提是抽样表达式相同）：

sql
SELECT *
FROM (SELECT *, abs(hash(rand(42))) % y AS bucket_idFROM sales
) tmp
WHERE bucket_id IN (0, 1, 2);   -- 注意：桶的编号在0到y-1之间？

但是要注意，TABLESAMPLE的分桶编号是从1开始，而自己计算哈希取模通常是0到y-1。所以需要调整。

查看全文

http://www.dtcms.com/a/395015.html

常见的【垃圾收集算法】

如何解决 pip install 安装报错 ModuleNotFoundError: No module named ‘django’ 问题

jvm之【垃圾回收器】

Tomcat基础知识

Will、NGC游戏模拟器 Dolphin海豚模拟器2509最新版电脑+安卓版附游戏

ELK企业级日志分析系统详解：从入门到部署实践

2025年Spring Security OAuth2实现github授权码模式登录

Kafka面试精讲 Day 22：Kafka Streams流处理

ELK大总结20250922

基于Hadoop生态的汽车全生命周期数据分析与可视化平台-基于Python+Vue的二手车智能估价与市场分析系统

基于TV模型利用Bregman分裂算法迭代对图像进行滤波和复原处理

利用 Perfmon.exe 与 UMDH 组合分析 Windows 程序内存消耗

hello算法笔记 02

二级域名解析与配置

如何学习国库会计知识

【读论文】压缩双梳光谱技术

Spark Structured Streaming端到端延迟优化实践指南

【.NET实现输入法切换的多种方法解析】,第566篇

性能测试-jmeter13-性能资源指标监控

基于华为openEuler系统安装PDF查看器PdfDing

PyTorch 神经网络工具箱核心知识梳理

【LangChain指南】Agents

Linux 的进程信号与中断的关系

IS-IS 协议中，是否在每个 L1/L2 设备上开启路由渗透

pycharm常用功能及快捷键

滚珠导轨在半导体制造中如何实现高精度效率

如何实现 5 μm 精度的视觉检测？不仅仅是相机的事

JavaScript学习笔记(六)：运算符

Jenkins运维之路(制品上传)

20届-高级开发（华为oD）-Java面经

Spark SQL 桶抽样（Bucket Sampling）

目录

前言:

语法：

示例：

相关文章：