当前位置: 首页 > wzjs >正文

网站建设考试多选题南宁中企动力

网站建设考试多选题,南宁中企动力,广州品牌seo推广,营销策划公司名字简单大气本文属于【Azure 架构师学习笔记】系列。 本文属于【Azure Databricks】系列。 接上文 【Azure 架构师学习笔记】- Azure Databricks (11) – UC搭建 前言 使用ADB 或者数据湖,基本上绕不开一个架构“Medallion”, 它使得数据管理更为简单有效。ADB 通过…

本文属于【Azure 架构师学习笔记】系列。
本文属于【Azure Databricks】系列。
接上文 【Azure 架构师学习笔记】- Azure Databricks (11) – UC搭建

前言

使用ADB 或者数据湖,基本上绕不开一个架构“Medallion”, 它使得数据管理更为简单有效。ADB 通过把数据分为“金”,“银”,“铜” 三层来实现Medallion架构。同时搭配UC,使得medallion更加健壮,安全和合规。

除了Medallion, 还有一些概念如data warehouse, data lake, 和data lakehouse。

  • Data lake: 是一个中央存储库,以原始格式存储任意规模的结构化和非结构化数据。与传统存储相比,这样可以减少很多前期转换开销。其核心优势之一就是灵活性,另外还有对大量大数据处理工具的支持。
  • Data lakehouse:跟data lake的名字非常相似,在data lake中的数据,在展现给最终用户前,通常都需要进行处理。 但是data lake的目标是存储,而非处理。data warehouse可以提供处理,但需要预先范式化、模式化再存储,同时存储的量一般有限。基于这两种不足,最好的办法就是优势整合,保留data lake的强大存储功能和data warehouse的数据处理功能,从而出现了data lakehouse。
  • ETL/ELT:两者区别在于先转换然后存储(TL)还是先存储再转换(LT)。ETL 往往需要先转换成预定格式再存储,随着数据集成过程的量和速度要求,在大数据领域ETL非常容易出现性能瓶颈,且费用昂贵。而ELT如果搭配lakehouse,则可以很好地平衡性能与开销。

问题

上面提到了lakehouse和ELT 的好处,但是这更多集中于收集和存储,那么如何管理和组织数据呢?

传统的数据仓库环境,数据通过下图的流程完整数据准备。
在这里插入图片描述
在datalake中,数据以原始格式存储,但是实际上你需要对数据进行使用,而不是简单存储。这种几乎随意式的直接存储很难马上用于数据使用(主要是分析),因此还是需要进行清晰(clean),转换(transform)。

由于量大,分析复杂,传统的数据仓库处理方式如果直接应用在data lake上,会导致如时间久,资源消耗大,数据组织困难导致结果不准确等情况。这时候Medallion 架构就应运而生。

它为湖仓一体化而定制。主要目标是在从源到最终使用的过程中逐步增加结构和数据质量。

ADB Medallion

下图是来自于Databricks官网的架构图,Medallion的核心在于3个层(layer):Bronze,Silver, Gold, 也就是铜、银、金。 Medallion就是奖牌的意思。
在这里插入图片描述

Bronze (铜)

Bronze 层充当外部源系统的数据的初始登陆点。这层的数据反映了原始状态的源系统结构,并带有元数据信息,如加载日期/时间和进程 ID。这层的管理重点是变更数据捕获,支持源数据的历史存档,维护数据血缘,还有审计跟踪,并允许在必要时进行重新处理,而无需从源系统重新读取。

Silver (银)

下一层是 Silver 层。在这层中,来自 Bronze 层的数据经过一系列作,达到 一种叫做“Just-enough” 状态。提供包含基本业务实体、概念和事务的 “企业视图”。

Gold (金)

最后一层是 Gold 层。Gold 层中的数据通常被结构化到特定于主题领域的数据库中,以供使用。此层专用于报告,并采用非规范化、读取优化的数据模型,具有最少的联接。它是应用数据转换和质量规则的最终阶段。

在这三层里面, 铜是原始存储外加元数据信息,金是最终用于展示的数据集,跟传统的数据仓库类似。重点在于银这一层。

这一层是转换后的数据, 它存储了不同源系统数据转换成统一视图后的结果。但是之所以叫做“Just-enough”,是因为它又并不完全转换,而是最小转换,包含:

  1. 数据清洗,是识别和纠正数据集中的错误、不一致和不准确之处以提高其分析和可靠性的过程。这是数据准备过程中的关键步骤,通常在数据分析或集成之前执行。涉及的一些常见任务包括:删除重复项、更正拼写错误、标准化数据格式(尤其是日期和地址)、处理缺失值等。
  2. 数据验证:数据验证是通过各种验证技术确保数据准确、一致和可靠的过程。它通常包括根据已知的质量控制措施验证数据、确认数据符合公司数据治理策略、通过交叉引用不同的数据源或应用业务规则和逻辑来解决不一致问题、标准化和规范化数据以及处理异常值。
  3. 数据合规:数据合规是指确保数据符合特定标准、格式或要求的过程。它涉及转换和标准化数据,以使其与特定数据模型、架构或系统保持一致和兼容。
  4. 有目的地进行数据匹配:为了提供统一的企业视图,来自不同来源的数据最终必须进行整合和集成。为了使数据可整合,您必须将来自不同来源的数据汇集在一起,识别和确定不同数据集或来源的记录之间的关系,并将它们转换为一致且连贯的格式。

通过这些处理之后, silver中的数据已经变得有意义且可用于后续整合。但是一般来说,数据后进一步处理就不需要在这一层进行了,否则会出现过度预处理,最终使其成为了gold层。

Medallion 是一个设计模式,而不是数据模型,也就是说它更多是一个指引,然后在特定环境中(这主要指云环境)按需实现。比如用ADB+ADLS 来实现。

小结

介绍了什么是Medallion之后,接下来将使用ADB 来实现它。

http://www.dtcms.com/wzjs/578065.html

相关文章:

  • 北京中交建设工程咨询有限公司网站网站建设mvc三层框架图
  • 法治与安全做讲座网站广东公路建设公司官网
  • 百度云虚拟主机如何建设网站美妆网站开发背景
  • 现在做网站开发网站推广设计制作
  • 商务 服务类网站模板深圳大型网站建设服务
  • 网站开发毕业实训总结安卓搭建wordpress
  • 网站建设要考虑哪些内容网站做视频的怎么赚钱
  • 网站绑定公众号网站seo 优帮云
  • 如何做网站写手建筑人才网最新招聘信息发布
  • 个人网站制作工具箱安卓版海南建设培训网站
  • 河南省建设银行网站年报企业网站代码
  • 合肥网络科技有限公司seo网络推广软文的格式
  • 外贸网站都有那些html教程 菜鸟教程
  • 亚马逊网站建设的意义上海传媒公司ceo
  • 外贸营销单页网站广州市义务教育学校招生报名
  • 蕴川路上海网站建设天津seo排名效果好
  • 广东省农业农村厅网站WordPress云笔记
  • 国外服务器做网站不能访问庆阳门户网
  • 临沂专业网站建设公司电话易企秀h5制作官网登录
  • 企业网站优化分为哪两个方向做钓鱼网站怎么赚钱
  • 阿里云做的网站网站域名使用方法
  • 建站快车是什么网站左下角广告代码
  • 学校文化建设网站google官方网站注册
  • 网站怎么添加假备案号网站建设有哪些优质公众号
  • 校级特色专业建设网站如何构建大型网站架构
  • 珠海中小企业网站建设wordpress模板标签查询
  • 设计的好看的网站网络公司注册资金多少
  • 做app和做网站net后缀的可以做网站吗
  • 无忧网站建设报价数商云医药行业
  • 母版页和窗体做网站例子昆明seo推广公司