当前位置: 首页 > news >正文

元数据管理与数据治理平台:Apache Atlas 分类传播 Classification Propagation

文中内容仅限技术学习与代码实践参考,市场存在不确定性,技术分析需谨慎验证,不构成任何投资建议。

Apache Atlas
Apache Atlas 框架是一套可扩展的核心基础治理服务,使企业能够有效、高效地满足 Hadoop 中的合规性要求,并支持与整个企业数据生态系统集成。这将通过使用规范和取证模型,以及技术和运营审计以及由业务分类元数据丰富的沿袭,在 Hadoop 中提供真正的可视性。它还使任何元数据使用者能够互操作,而无需彼此独立的接口——元数据存储是通用的。通过利用 Apache Ranger 来维护元数据的准确性,以防止在运行时对数据进行未经授权的访问。安全性基于角色 (RBAC) 和属性 (ABAC)。

分类传播

Classification Propagation

  • 分类传播使得与某个实体关联的分类可以自动关联到该实体相关的其他实体。这在处理数据集从其他数据集派生数据的场景时非常有用——例如,一个表从文件加载数据、一个报表从表或视图生成等。
  • 例如,当一个表被分类为 PII 时,从此表派生数据的表或视图(通过 CTAS 或 “create view” 操作)将被自动分类为 PII

使用场景

考虑以下数据血缘场景,数据从 ‘hdfs_path’ 实体加载到一个表中,该表进一步通过视图对外提供。我们将通过多个场景来理解分类传播特性。

img

向实体添加分类

当向 ‘hdfs_path’ 实体添加分类 ‘PII’ 时,该分类会传播到血缘路径中所有受影响的实体,包括 ‘employees’ 表、视图 ‘us_employees’ 和 ‘uk_employees’ —— 如下图所示。

img

更新与实体关联的分类

对与实体关联的分类的任何更新,也会在所有分类传播到的实体中体现出来。

img

移除与实体关联的分类

当从实体中删除分类时,该分类也会从所有分类传播到的实体中移除。

img

在实体之间添加血缘

当在实体之间添加血缘时,例如捕获文件数据加载到表中的过程,与源实体关联的分类也会传播到所有受影响的实体。
例如,当从表创建视图时,与该表关联的分类会传播到新创建的视图。

img

删除实体

情况 1:
当删除实体时,与该实体关联的分类将从所有分类传播到的实体中移除。
例如,当删除 employees 表时,与该表关联的分类将从 ‘employees_view’ 视图中移除。

img

情况 2:
当在血缘路径的中间删除实体时,传播链路会中断,先前传播的分类将从被删除实体的所有派生实体中移除。
例如,当删除 ‘us_employees’ 表时,通过该表传播的(PII)分类将从 ‘ca_employees’ 表中移除,因为唯一的传播路径被实体删除中断了。

img

img

情况 3:
当在血缘路径的中间删除实体,并且存在其他传播路径时,先前传播的分类将被保留。
例如,当删除 ‘us_employees’ 表时,通过该表传播的(PII)分类将保留在 ‘ca_employees’ 表中,因为存在两条传播路径,其中只有一条被实体删除中断。

img

img

控制传播

Apache Atlas 提供了一些选项来控制分类是否/在哪里传播。
本节将详细介绍可用选项。

分类中的传播标志

每次将分类关联到实体时,都有一个布尔标志控制该分类是否传播。
当分类关联到实体时,此标志默认设为 ‘true’,即该分类将传播到所有受影响的实体。在初始关联或后续更新时,可根据需要更新此标志。

img

血缘边中的传播标志

Apache Atlas 支持在血缘边上设置标志,以启用/禁用通过该边传播分类。默认情况下,血缘边启用传播。
当标志关闭时,没有分类会通过该边传播;并且将重新评估当前通过该边传播的分类,以便可以从受影响的实体中移除它们。
当标志打开时,将重新评估源实体的分类传播,以便可以将它们传播到所有受影响的实体。

在血缘边中阻止特定分类传播

Apache Atlas 支持在血缘边中阻止特定分类的传播。
例如,这在以下场景很有用:在创建视图时,被分类为 PII 的列被屏蔽;在这种情况下,如果视图中的对应列可能不具有 PII,因此应阻止 PII 分类的传播。
可以通过更新血缘边,将 PII 分类添加到 ‘blocked propagated classifications’ 列表中来实现。
被阻止传播的分类列表中的分类将不会在派生/下游实体中传播。

img

通知与审计

当传播的分类被添加/更新/删除时,Apache Atlas 会向 ‘ATLAS_ENTITIES’ 主题发送通知,通知中包含受传播影响的每个实体。

术语表

当分类与术语表术语关联时,该分类会自动传播到与该术语关联的所有实体。

风险提示与免责声明
本文内容基于公开信息研究整理,不构成任何形式的投资建议。历史表现不应作为未来收益保证,市场存在不可预见的波动风险。投资者需结合自身财务状况及风险承受能力独立决策,并自行承担交易结果。作者及发布方不对任何依据本文操作导致的损失承担法律责任。市场有风险,投资须谨慎。

http://www.dtcms.com/a/323904.html

相关文章:

  • Qt 框架全面解析:从基础到应用
  • Android 四大布局:使用方式与性能优化原理
  • ES 调优帖:Gateway 批量写入性能优化实践
  • Redis基本原理,性能优化和参数调优简述
  • #C语言——刷题攻略:牛客编程入门训练(八):分支控制(二)
  • es-drager-blog
  • 编程与数学 03-003 计算机操作系统 15_设备管理(三):缓冲技术与I/O性能优化
  • opencv颜色识别项目:识别水果
  • 复现论文《多无人机协同任务分配算法设计与实现》
  • js 实现 ajax 并发请求
  • selenium自动化测试速成
  • 腾讯云EdgeOne KV存储在游戏资源发布中的技术实践与架构解析
  • 嵌入式开发学习(第三阶段第四天 Linux系统开发)
  • 每日任务day0810:小小勇者成长记之武器精炼
  • Docker部署到实战
  • Java 大视界 -- Java 大数据机器学习模型在电商商品销量预测与库存精准管理中的应用(391)
  • Pytorch进阶-timm库-00快速开始
  • AI大模型 教师方向应用探索
  • 联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像
  • 机械学习--DBSCAN 算法(附实战案例)
  • 基于梅特卡夫定律的开源链动2+1模式AI智能名片S2B2C商城小程序价值重构研究
  • Jenkins | 账号及权限管理
  • Python爬虫实战:研究Ruia框架,构建博客园文章采集系统
  • 【Elasticsearch入门到落地】16、RestClient查询文档-快速入门
  • AIStarter:全网唯一跨平台桌面AI管理工具,支持Windows、Mac和Linux一键部署
  • 滚动条开始滚动时,左侧导航固定,当左侧内容触底到footer时左侧内容取消固定并跟随滚动条滚动
  • ADK【4】内置前端调用流程
  • TDengine IDMP 快速体验(方式二 通过 docker)
  • 安全引导功能及ATF的启动过程(五)
  • Linux 虚拟机磁盘空间占满-全面清理方案