当前位置: 首页 > news >正文

数据治理3-数元数据管理与治理(资产等)

一、企业元数据管理理论概述

企业需要知道它们拥有什么数据,数据在哪里、由谁负责,数据中的值意味着什么,数据的生命周期是什么,哪些数据安全性和隐私性需要保护,以及谁便用了数据,用于什么业务目的,数据的质量怎么样,等等。这些问题都需要通过元数据管理解决问题。

1. 元数据的类型与作用(☆☆☆)

1.1 业务元数据

业务元数据:描述数据的业务含义、业务规则等。通过明确业务元数据,让人们更容易理解和使用业务元数据。元数据消除了数据二义性,让人们对数据有一致的认知,避免“自说自话”,进而为数据分析和应用提供支撑。

常见的业务元数据有:

  • 业务定义、业务术语解释等;

  • 业务指标名称、计算口径、衍生指标等;

  • 业务规则引擎的规则、数据质量检测规则、数据挖掘算法等;

  • 数据的安全或敏感级别等。

1.2 技术元数据

技术元数据:是对数据的结构化,方便计算机或数据库对数据进行识别、存储、传输和交换。一般是各种与数据相关的非业务信息,比如数据的存储,传输,etl等信息。技术元数据可以服务于开发人员,让开发人员更加明确数据的存储、结构,从而为应用开发和系统集成奠定基础。技术元数据也可服务于业务人员,通过元数据理清数据关系,让业务人员更快速地找到想要的数据,进而对数据的来源和去向进行分析,支持数据血缘追溯和影响分析。

常见的技术元数据有:

  • 物理数据库表名称、列名称、字段长度、字段类型、约束信息、数据依赖关系等;

  • 数据存储类型、位置、数据存储文件格式或数据压缩类型等;

  • 字段级血缘关系、SQL 脚本信息、ETL 抽取加载转换信息、接口程序等;

  • 调度依赖关系、进度和数据更新频率等。

1.3 操作(管理)元数据

管理元数据描述数据的操作属性,包括管理部门、管理责任人等。明确管理属性有利于数据管理责任到部门和个人,是数据安全管理的基础。

常见的操作元数据有:

  • 数据所有者、使用者等;

  • 数据的访问方式、访问时间、访问限制等;

  • 数据访问权限、组和角色等;

  • 数据处理作业的结果、系统执行日志等;

  • 数据备份、归档人、归档时间等。

在这里插入图片描述
总结:元数据的主要作用就是对数据对象进行描述,定位,检索,管理,评估和交互

2. 元数据的管理

2.1 为什么企业需要元数据管理?(☆☆)

元数据的管理本质是为了更加有效地利用企业数据资产,企业降本增效同时可以更大化地利用数据的价值。

  • 技术角度:元数据管理着企业的数据源系统、数据平台、数据仓库、数据模型、数据库、表、字段以及字段间的数据关系等技术元数据。
  • 业务角度:元数据管理着企业的业务术语表、业务规则、质量规则、安全策略以及表的加工策略、表的生命周期信息等业务元数据。
  • 应用角度:元数据管理为数据提供了完整的加工处理全链路跟踪,方便数据的溯源和审计,这对于数据的合规使用越来越重要。通过数据血缘分析,追溯发生数据质量问题和其他错误的根本原因,并对更改后的元数据进行影响分析

2.2 元数据管理的发展阶段?(☆)

  1. 手动元数据管理阶段(比如用excel管理,数据变化快,数据链路复杂,规模越来越大时,维护成本高,)
  2. 元数据中央存储/仓库阶段(平台化维护元数据,元数据打通)
  3. 智能化元数据管理阶段:实现元数据的自动化采集,整合,元数据维护;

2.3元数据管理需要达到什么样的目标?(☆)

  1. 建立元数据指标解释体系(元数据管理平台):实现用户对业务数据的透明化,比如有哪些数据,归属谁,谁在用,生命周期,数据存储等。
  2. 提高数据的溯源能力(元数据分析平台):比如这张表从哪里,做过哪些操作,血缘分析,链路分析,影响分析,指标加工口径等。
  3. 元数据的数据质量稽核体系(元数据应用):保障数据的及时性,完整性,一致性等,让业务对结果有保障,透明,比如今天为啥数据增加了10%?

2.4.元数据管理(治理)包含哪些维度?(☆☆☆)

注意这些元数据管理的维度都需要大量工程化工具化的平台支撑,通过这些管理工具,能够对企业分散的元数据进行统一、集中化管理,帮助企业绘制数据地图、统一数据口径、标明数据方位、控制模型变更。利用元数据管理工具可以更好地获取、共享、理解和应用企业的数据信息,降低效据集成和管理成本,提高数据资产的透明度。

在这里插入图片描述

3. 元数据管理与数据治理相关面试题?

3.1 元数据在数据治理中的作用?

元数据管理是数据治理的基础它用于定义和描述数据、数据之间的关系,以及数据如何管理、如何使用。元数据在数据治理中的主要应用如下:

  1. 定义和描述业务域、业务主题和数据实体;
  2. 描述数据结构和数据关系;
  3. 描述源系统、目标系统、表、视图、存储过程和字段属性;
  4. 定义和描述数据资产目录;
  5. 定义和描述主数据模型的属性;
  6. 管理数据标准:
  7. 描述数据质量规则和数据质量检核结果;
  8. 识别和定义数据集中的敏感数据、敏感属性;
  9. 血缘分析和影响分析;
  10. 描述数据流向,数据来自哪里、流向哪里;
  11. 描述数据管理,谁负责管理数据、在哪里管理;
  12. 描述数据的使用,谁有权使用数据、在哪里使用。

3.2 元数据在数据仓库中的应用如下

描述数据源的库表结构、数据关系以及每个数据项的定义:

  1. 描述数据源中每个数据项的值域范围和更新频率;
  2. 描述数据源与数据仓库之间的数据映射关系:
  3. 描述数据仓库中有哪些数据以及它们来自哪里
  4. 描述数据在数据仓库各层中的加工处理过程;
  5. 元数据管理工具为数据管理者和使用者提供了理解和查询数据的一致语言;
  6. 利用元数据管理工具的元数据变更和版本管理功能,管理数据仓库的数据模型,支持将元数据恢复到某一版本:
  7. 利用元数据管理工具的血缘分析、影响分析等功能,对数据仓库中的数据问题快速定位、快速查找;
  8. 利用元数据管理工具的开放式元数据交换标准,实现数据仓库中数据的交换和共享。

二、企业元数据与资产管理实践

数据管理的核心重点在于元数据平台的建设,用以支撑数据管理的上层应用,包括数据地图、数据规范治理、数据成本治理及数据质量建设,以及未来的规划。

1. 元数据管理平台架构

元数据的管理基本上围绕了数据的全生命周期,所以元数据管理平台的模块设计也围绕这个生命周期展开,主要包括了元数据采集服务、元数据管理服务、元数据访问和分析服务

元数据管理平台分为3个模块建设:

  • 元数据采集层
    能够适应异构环境,支持从传统关系数据库和大数据平台中采集从数据生成系统到数据处理系统到数据应用报表系统的全量元数据,包括过程中的数据实体和数据实体处理过程中的逻辑。
  • 元数据管理层
    实现元数据的元模型定义和存储,将功能层包装成各种元数据功能,最终提供应用和展示;提供元数据分类建模、血缘关系和影响分析,方便数据跟踪和追溯;提供元数据权限管理
  • 元数据应用层
    元数据访问服务是元数据管理软件提供的元数据访问接口服务,一般支持 REST 或 Webservice 等接口协议,其中元数据的应用一般包括数据地图、血缘分析、影响分析、全链分析等。

在这里插入图片描述

1.1. 元数据采集平台功能模块

一般实施对象是大数据平台开发,大数据运维实施,实现代码自动化采集元数据信息。
在这里插入图片描述

1.2. 元数据的管理与应用平台功能模块

在这里插入图片描述
元数据提供的应用:血缘分析、影响分析、全链分析、关联度分析,数据地图,质量核检等。

  • 血缘分析:告诉你数据来自哪里,都经过了哪些加工。

  • 影响分析:告诉你数据都去了哪里,经过了哪些加工。

  • 全链分析:告诉你一个应用侧的数据整个生产链路。

  • 冷热度分析:告诉你哪些数据是企业常用数据,哪些数据属于僵死数据。

  • 关联度分析:告诉你数据和其他数据的关系以及它们的关系是怎样建立的。

  • 数据地图:告诉你有哪些数据,在哪里可以找到这些数据,能用这些数据干什么。

  • 质量核检:提供基础的填充率,一致性检查等。

1.3. 元数据管理平台技术架构

在这里插入图片描述
技术层面主要涉及到数据的采集和储存,主要涉及到三种场景:

元数据信息存储:使用一种数据库(推荐 TIDB)承载采集到的实体关系数据,作为元数据业务的中心存储。

元数据查询:使用一种面向查询场景的数据库(如 ES)数据从存储库的实体表同步,提供元数据检索能力,提供跨源跨表 join,分词查询,权重控制,自定义词包等能力。

关系查询:使用一种面向关系的图数据库(HugeGraph,neo4J等),数据从 TIDB 的关系表同步,提供图结构下的深度遍历,路径选择,成环处理等能力。

关于元数据血缘的覆盖广度和粒度级别:元数据的管理与平台建设是一个庞大的持续性的工程。从重点出发,逐步覆盖完整的数据生产环节,如离线链路、实时链路、出入仓表、数据报表等等。

血缘的粒度由大至小分别是 表级 → 字段级 (分区级) → 行级,血缘粒度越小,进行数据链路上下游定位的精度越高,但采集解析存储的难度越大。行业内比较主流的做法是做到表级别,对于重点业务场景,可以考虑实现到字段级别。

2. 企业数据全链路流程管理

对数据进行抽象成表和任务进行统一管理,完成了从业务到业务的闭环,数据全链路实现了:

  1. 数据类型全
  2. 任务类型全
  3. 平台类型全
  4. 元数据类型全
  5. 血缘类型全

在这里插入图片描述

3. 元数据管理之血缘管理

3.1. 为什么数仓需要血缘分析系统?

  1. 日益庞大的数据开发导致表间关系混乱,管理成本与使用成本激增
    数据血缘产生最本质的需求。大数据开发作为数据汇集与数据服务提供方,庞大的数据与混乱的数据依赖导致管理成本与使用成本飙升。

  2. 数据价值评估,数据质量难以推进
    表的优先级划分,计算资源的倾斜,表级数据质量监控,如何制定一个明确且科学的标准。

  3. 表|任务的的数据治理,变更等操作参考依据(确定影响范围)
    什么表该删,什么表不能删,表修改下线的影响参考,业务库,数仓库,中间库,开发库,测试库等众多库表,是否存在数据冗余(一定存在)。以及存储资源如何释放?你改了一张表的字段,第二天醒来发现邮件里一堆任务异常告警。

  4. ETL任务的调度管理,异常归因分析、影响分析、恢复参考依据(追踪溯源)
    任务异常或者ETL故障,我们如何定位异常原因,并且进行影响分析,以及下游受影响节点的快速恢复。数据依赖混乱必然会带来调度任务的依赖混乱,如何构建一个健壮的调度依赖。

  5. 数据安全审计难以开展
    针对银行、保险、政府等对安全关注度较高的行业,数据安全-数据泄露-数据合规性需要重点关注。由于数据存在ETL链路操作,下游表的数据来源于上游表,所以需要基于数据全链路来进行安全审计,否则可能会出现下游数据安全等级较低,导致上游部分核心数据泄露。

3.2. 血缘管理与血缘价值(了解)

  • 数据溯源:数据的血缘关系,体现了数据的来龙去脉,能帮助追踪数据的来源,追踪数据处理过程。

  • 评估数据价值:数据的价值在数据交易领域非常重要,数据血缘关系,可以从数据受众、数据更新量级、数据更新频次几方面来给数据价值的评估提供依据。

  • 数据质量评估:从数据质量评估角度来看,清晰的数据源和加工处理方法,可以明确每个节点数据质量的好坏。从数据的血缘关系图上,可以方便地看到数据清洗的标准清单。

  • 数据归档、销毁的参考:从数据生命周期管理角度来看,数据的血缘关系有助于判断数据的生命周期,是数据的归档和销毁操作的参考。

数据血缘的系统边界是:从 RDS 和 MQ 开始,一路途径各种计算和存储,最终汇入指标、报表和数据服务系统

数据血缘是在数据的加工、流转过程产生的数据与数据之间的关系。提供一种探查数据关系的手段,用于跟踪数据流经路径

在这里插入图片描述

http://www.dtcms.com/a/428533.html

相关文章:

  • devexpress做网站佛山微信网站建设多少钱
  • 南宁网站搭建人才招聘网站模板html
  • 【UE】判断一个Package是否是重定向器
  • 做网站每年都要费用的吗网页页面设计尺寸
  • 陕西教育建设信息网站小程序模板设计
  • 家纺 网站建设 中企动力中国白客网vip钓鱼网站开发
  • GESP25年9月编程题解析
  • 网站备案负责人幕布照图书馆理论与建设网站
  • Python原生数据结构深度解析:从入门到精通
  • 又拍网站怎么做的网站建设犀牛
  • 有什么网站建设软件有哪些找文网优化服务
  • 视频投票网站怎么做的网站建设分为哪几个步骤
  • 哪些网站做任务可以赚钱的wordpress菜单显示问题
  • 一周学习经验汇总之OpenSSH6 移植与库链接心得笔记
  • 游戏币网站建设wordpress虾米
  • 青岛易龙网站建设中国建筑招聘官方网站
  • 个人简历模板可编辑免费常州谷歌优化
  • 全屏网站大小企业网站建设中的常见问题
  • 湛江市微信网站建设企业app制作开发教程
  • Linux虚拟机固定IP超详细教程
  • 房产中介网站江门做网站软件
  • 合肥建站方案加强网站技术建设
  • 汽车零件销售网站开发影视制作公司简介
  • 做网站定金一般多少企业建设网站作用
  • 香港服务器租用价格大概是多少
  • 建网站投放广告赚钱电脑版淘宝网页
  • 网站建设推广多少钱服务周到的微网站建设
  • wordpress网站根目录28网站建设
  • 开关柜局放在线监测装置
  • MyBatis拦截器在服务内存防护场景中的应用