当前位置：首页 > news >正文

tablesample函数介绍

news 2025/9/23 8:18:22

前言:

在 Spark SQL 中，TABLESAMPLE 函数用于从表中抽样数据。这对于大数据集上的快速近似查询非常有用。

语法:

TABLESAMPLE (sample_type [ (percentage) | (num_rows) ]) [REPEATABLE (seed)]

参数说明
sample_type:
BYTELENGTH: 按字节大小抽样（不常用）
PERCENT: 按数据行的百分比抽样（常用）
ROWS: 按行数抽样（常用）
BUCKET x OUT OF y: 基于哈希分桶抽样（特定用途）

抽样量:
对于PERCENT: 指定百分比（例如 10 表示 10%）
对于ROWS: 指定行数（例如 1000 表示抽取1000行）
对于BUCKET: 指定分桶策略（如 BUCKET 1 OUT OF 10 表示分成10桶取第1桶）

REPEATABLE:
可选参数，指定随机种子以确保每次抽样结果相同

示例

示例1：按百分比抽样

-- 抽取10%的数据
SELECT * FROM sales TABLESAMPLE (10 PERCENT);

示例2：按行数抽样

-- 抽取1000行数据
SELECT * FROM large_table TABLESAMPLE (1000 ROWS);

示例3：分桶抽样（伪随机）

-- 将数据分为10桶，抽取第1桶（约10%数据）
SELECT * FROM users TABLESAMPLE (BUCKET 1 OUT OF 10);

示例4：可重复抽样

-- 使用种子42，确保每次运行结果相同
SELECT * FROM logs TABLESAMPLE (5 PERCENT) REPEATABLE (42);

查看全文

http://www.dtcms.com/a/395058.html

机器学习-单因子线性回归

android pdf框架-14,mupdf重排

借助VL模型实现一个简易的pdf书签生成工具

78-数据可视化-折线图

静默安装 Oracle Database 21c on CentOS 7.9

DINOv3详解+实际下游任务模型使用细节（分割，深度，分类）+ Lora使用+DINOv1至v3区别变换分析（可辅助组会）

Linux编译SRS并测试RTMP流

【完整源码+数据集+部署教程】遥感温室图像分割系统： yolov8-seg-slimneck

Apache 生产环境操作与 LAMP 搭建指南

11种数据库类型详解：数据库分关系数据库、非关系数据库、时序数据库、向量数据库等

UVa12180/LA4300 The Game

Kafka 核心原理、架构与实践指南

Tesollo展示灵巧手自动化精准测量系统

11MySQL触发器实战：用户操作日志审计系统

【深度学习计算机视觉】06：目标检测数据集

visual studio 2019离线安装

【Unity笔记】Unity 模型渲染优化：从 Batching 到 GI 设置的完整指南

【AI领域】如何写好Prompt提示词：从新手到进阶的完整指南

Unity 性能优化之内存优化

PCB 通孔技术全解析：结构参数、制造工艺与质量控制指南

1.13-Web身份鉴权技术

【完整源码+数据集+部署教程】水母图像分割系统： yolov8-seg-rtdetr

《从零到精通：PyTorch （GPU 加速版）完整安装指南

B站的视频资源转换为可用的MP4文件

5. 数据类型转换

有没有更多Java进阶项目？

Rada and the Chamomile Valley(Tarjan缩点+多源BFS）

Jfrog开源替代，推荐一款国产开源免费的制品管理工具 - Hadess

《C++进阶之C++11》【列表初始化 + 右值引用】

【Redis】：从应用了解Redis

tablesample函数介绍

目录

前言:

语法:

示例

相关文章：