当前位置: 首页 > news >正文

tablesample函数介绍

目录

  • 前言:
  • 语法:
  • 示例

前言:

在 Spark SQL 中,TABLESAMPLE 函数用于从表中抽样数据。这对于大数据集上的快速近似查询非常有用。

语法:

TABLESAMPLE (sample_type [ (percentage) | (num_rows) ]) [REPEATABLE (seed)]

参数说明
sample_type:
BYTELENGTH: 按字节大小抽样(不常用)
PERCENT: 按数据行的百分比抽样(常用)
ROWS: 按行数抽样(常用)
BUCKET x OUT OF y: 基于哈希分桶抽样(特定用途)

抽样量:
对于PERCENT: 指定百分比(例如 10 表示 10%)
对于ROWS: 指定行数(例如 1000 表示抽取1000行)
对于BUCKET: 指定分桶策略(如 BUCKET 1 OUT OF 10 表示分成10桶取第1桶)

REPEATABLE:
可选参数,指定随机种子以确保每次抽样结果相同

示例

示例1:按百分比抽样

-- 抽取10%的数据
SELECT * FROM sales TABLESAMPLE (10 PERCENT);

示例2:按行数抽样

-- 抽取1000行数据
SELECT * FROM large_table TABLESAMPLE (1000 ROWS);

示例3:分桶抽样(伪随机)

-- 将数据分为10桶,抽取第1桶(约10%数据)
SELECT * FROM users TABLESAMPLE (BUCKET 1 OUT OF 10);

示例4:可重复抽样

-- 使用种子42,确保每次运行结果相同
SELECT * FROM logs TABLESAMPLE (5 PERCENT) REPEATABLE (42);
http://www.dtcms.com/a/395058.html

相关文章:

  • 机器学习-单因子线性回归
  • android pdf框架-14,mupdf重排
  • 借助VL模型实现一个简易的pdf书签生成工具
  • 78-数据可视化-折线图
  • 静默安装 Oracle Database 21c on CentOS 7.9
  • DINOv3详解+实际下游任务模型使用细节(分割,深度,分类)+ Lora使用+DINOv1至v3区别变换分析(可辅助组会)
  • Linux编译SRS并测试RTMP流
  • 【完整源码+数据集+部署教程】遥感温室图像分割系统: yolov8-seg-slimneck
  • Apache 生产环境操作与 LAMP 搭建指南
  • 11种数据库类型详解:数据库分关系数据库、非关系数据库、时序数据库、向量数据库等
  • UVa12180/LA4300 The Game
  • Kafka 核心原理、架构与实践指南
  • Tesollo展示灵巧手自动化精准测量系统
  • 11MySQL触发器实战:用户操作日志审计系统
  • 【深度学习计算机视觉】06:目标检测数据集
  • visual studio 2019离线安装
  • 【Unity笔记】Unity 模型渲染优化:从 Batching 到 GI 设置的完整指南
  • 【AI领域】如何写好Prompt提示词:从新手到进阶的完整指南
  • Unity 性能优化 之 内存优化
  • PCB 通孔技术全解析:结构参数、制造工艺与质量控制指南
  • 1.13-Web身份鉴权技术
  • 【完整源码+数据集+部署教程】水母图像分割系统: yolov8-seg-rtdetr
  • 《从零到精通:PyTorch (GPU 加速版) 完整安装指南
  • B站的视频资源转换为可用的MP4文件
  • 5. 数据类型转换
  • 有没有更多Java进阶项目?
  • Rada and the Chamomile Valley(Tarjan缩点+多源BFS)
  • Jfrog开源替代,推荐一款国产开源免费的制品管理工具 - Hadess
  • 《C++进阶之C++11》【列表初始化 + 右值引用】
  • 【Redis】:从应用了解Redis