当前位置: 首页 > news >正文

Spark流水线数据探查组件

1.Deequ简介

Deequ是AWS实验室开发的一款开源数据质量监控工具,它构建在Apache Spark之上,主要用于大规模数据集的质量验证。Deequ允许用户定义"数据质量约束",并自动计算指标来验证这些约束是否得到满足,从而帮助数据工程师和分析师确保其数据的正确性和完整性。

在数据从数据源抽取、转换并加载到数据仓库的ETL过程中,Deequ可以嵌入其中,对每一步的数据进行质量检查。例如,在数据抽取后检查数据的完整性,在转换过程中检查数据的一致性和准确性,确保只有符合质量要求的数据才能进入数据仓库,避免错误数据对后续数据分析和决策的影响。

2.探查字段

Spark流水线数据探查组件采用Deequ实现,可将任意节点输出的DataFrame数据集进行数据探查,字段如下:

字段名含义类型备注
columnName分析的列名StringType所有类型字段
completeness该列的完整性,取值范围在 0 到 1 之间,1 代表无缺失值。DoubleType所有类型字段
approximateNumDistinctValues该列不同值的近似数量LongType所有类型字段
dataType该列的数据类型StringType所有类型字段
typeCounts键为数据类型名称,值为该类型在列中出现的次数。MapType(StringType, LongType)所有类型字段
minimum该列的最大值DoubleType整形类型字段
maximum该列的最小值DoubleType整形类型字段
mean该列的平均值DoubleType整形类型字段
sum该列所有值的总和DoubleType整形类型字段
stdDev该列的标准差DoubleType整形类型字段
approxPercentiles该列的近似分位数StringType整形类型字段
minLength字符串列中最短字符串的长度IntegerType字符类型字段
maxLength字符串列中最长字符串的长度IntegerType字符类型字段

3. 集成演示

3.1 创建任务

  • 入口:通过顶部菜单栏选择 任务开发,或通过快捷入口 快速创建任务

  • 任务类型:选择 SparkPipeline

3.2 配置任务

点击任务名称,进入任务详情页。任务节点如下

使用MockData节点生成100条测试数据

使用DataProfiling探索数据

最后通过TableShow对探索结果可视化展示

3.3 运行任务

  • 点击 运行 按钮启动任务

    在这里插入图片描述

🔗 平台体验地址:DataStudio (http://1.94.182.15:8090)

http://www.dtcms.com/a/265334.html

相关文章:

  • 部署KVM虚拟化平台
  • odoo17 警示: selection attribute will be ignored as the field is related
  • centos7下源码编译ffmpeg时报错ERROR opus not found using pkg-config问题修复
  • 全角半角空格在网页中占位符和编码emsp;ensp;
  • 网络协议概念与应用层
  • 深度解析Elasticsearch滚动索引:原理、实践与自动化管理
  • Spring cloud gateway
  • C++2d我的世界V1.4
  • 模型预测专题:强鲁棒性DPCC
  • 智能检测原理和架构
  • 哪个领域数据库最难替换?
  • Softhub软件下载站实战开发(十):实现图片视频上传下载接口
  • rockchip android14 设置不休眠
  • 数学建模_微分方程
  • 商品中心—18.库存分桶的一致性改造文档
  • RedisCluster不可用的6大隐患
  • 通俗理解JVM细节-面试篇
  • 配置tcp的https协议证书
  • [云上玩转Qwen3系列之四]PAI-LangStudio x AI搜索开放平台 x ElasticSearch: 构建AI Search RAG全栈应用
  • JSON 安装使用教程
  • 新版本没有docker-desktop-data分发 | docker desktop 镜像迁移
  • 用Python实现两种爱心效果❤️
  • 人机协同的智能体开发范式(ADS)
  • HCIA-实现VLAN间通信
  • nrf52840蓝牙学习(定时器的应用)
  • Python 数据分析:numpy,说人话,说说数组维度。听故事学知识点怎么这么容易?
  • 从暴力穷举到智能导航,PC本地搜索被腾讯电脑管家“拯救”
  • 【Vue入门学习笔记】Vue核心语法
  • 百度文心 ERNIE 4.5 开源:开启中国多模态大模型开源新时代
  • MYSQL基础内容