当前位置: 首页 > news >正文

1.6 大数据方法论与实践指南-数据治理工具

  1. 开源

业界开源工具都是针对具体的某一个技术点出现的,比如仅仅针对数据中间件就有 kafka,pulsar,rocketmq 等不同的知名项目。因为数据管理:从流程方面涉及的流程太长,和具体业务关系紧密;从技术角度涉及的环节多,针对当前每个环节的技术都还远未成熟;因此数据管理相关的开源工具短时间内还不会出现。

  1. 商业化产品

海外产品:AWS,Azure 没有对应的数据治理工具,国内比较成熟,以下都为国内云产品。

  1. 阿里-Dataphin:

Dataphin 是阿里巴巴集团 OneData 数据治理方法论内部实践的云化输出,一站式提供数据采、建、管、用全生命周期的大数据能力,以助力企业显著提升数据治理水平,构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin 兼容多种计算平台,并开放可拓展的能力,以适应不同行业客户的平台技术架构和特定诉求。

Dataphin 产品能力大图如下图所示。

  1. 阿里云-Dataworks:

DataWorks 是一站式智能大数据开发治理平台,适配阿里云 MaxCompute、E-MapReduce、Hologres、Flink、AnalyticDB、StarRocks、PAI 等数十种大数据和 AI 计算服务,为数据仓库、数据湖、湖仓一体、Data+AI 解决方案提供全链路智能化的数据集成、大数据 AI 一体化开发、数据分析与主动式数据资产治理服务,帮助企业进行全生命周期数据管理。自 2009 年以来,DataWorks 以阿里巴巴集团大数据建设方法论为基础,不断沉淀数据治理最佳实践,现已广泛应用于包括政务、金融、零售、互联网、汽车、制造等众多行业,数以万计的客户信赖并选择 DataWorks 进行数字化升级和价值创造。

产品能力

DataWorks 十多年沉淀数百项核心能力,通过智能数据建模、全域数据集成、高效数据生产、主动数据治理、全面数据安全、数据分析服务六大全链路数据治理的能力,帮助企业治理内部不断上涨的“数据悬河”,释放企业的数据生产力。

核心模块主要能力
智能数据建模帮助企业系统化地规划、设计和管理数据仓库,确保数据资产的规范、可复用与高质量。
全域数据集成支持复杂网络环境(云上、本地IDC)和丰富数据源之间的数据传输,实现实时、离线、全增量的全场景数据同步。
高效数据生产提供在线的批处理、流处理和机器学习任务开发环境,支持SQL、Spark、Python等多种语言,并具备强大的任务调度与依赖配置能力。
主动数据治理包含数据质量、数据地图、数据资产管理等功能,帮助您定义质量规则、探查数据血缘、盘点和管理数据资产。
全面数据安全提供数据脱敏、权限管控、安全审计等能力,保障数据在整个生命周期中的合规与安全。
数据分析服务提供SQL查询、智能数据洞察等工具支持交互式分析与业务洞察,也支持将数据零代码生成为高性能API,实现与业务应用的无缝集成。

  1. 阿里云-数据资源平台

阿里云数据资源平台是数据资产定义、加工、管理、服务的全流程平台,提供数据同步、数据查询、数据标准、数据建模、数据加工、质量评估、业务模型构建、资产管理、数据服务等功能,为智能数据应用持续稳定供给全量、标准、干净、智能的数据资源。

数据资源平台覆盖数据同步、数据标准建模及数据质量检查、数据开发、数据标签体系构建,基于标签数据的群体分析、专家业务模型构建、全流程任务监控告警、数据服务化、数据资产管理等核心能力,提供标准化程度高、易用性强的一站式大数据管理平台。

依托数据资源平台,可设计高质量的标准化数据模型,减少重复开发工作,用户可全面了解数据质量、数据使用情况和系统运行情况,并从业务视角更直观地使用并探索数据,更高效地从数据中获取业务价值。

目前数据资源平台提供以下功能:

  • 协同

    • 数据同步:数据同步可实现离线、实时多源异构数据的便捷同步或接入,系统可提供完善的数据接入配置、 数据模板配置、数据同步任务运行监控等功能,有效保障数据接入的稳定性和可控性,满足各类平台、数据源及应用系统间的数据汇聚需求。

    • 空间数管:空间数据管理支持单文件、多文件、数据库等多种形态,矢量、栅格、瓦片、倾斜摄影等多种类型,不同格式的多源异构空间数据的接入和管理;支持本地上传、从 OSS 导入等多种方式添加数据;添加数据的同时支持各类型空间数据的元信息自动解析,支持按空间对平台所有空间数据进行统一检索、统计和管理。

    • 数据探查:提供对云计算资源中物理表的探查,快速了解物理表详情及分布情况。支持面向多种云计算资源中的表及字段进行预览和表数据自动探查,提供表级别、字段级别探查结果图表化展示。

    • 数据标准:提供逻辑表标准、字段标准(数据元、指标、维度、数据字典等)管理能力。帮助用户通过设计标准数据元素,定义关键业务对象、业务对象属性及值域定义,并规范标准数据字典,制定并管理平台遵循的统一数据标准,帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。

    • 数据建模:帮助用户在数据标准的约束下构建数据模型,将数据标准贯彻到数据质量分析、保障及检查的全过程中,将散乱的多源异构数据加工成标准、干净的数据资产,确保数据的完整性、一致性、准确性、可用性,通过客观量化评估指标帮助客户了解数据治理工作进程,指引数据治理工作的螺旋式上升过程。为了完成在云上积累可运营数据资源的目标,提供数据充分融合、数据高质量可用的必要保障。

    • 数据开发:支持对计算节点中的脚本、自定义函数、节点输入、节点输出、参数等进行配置和管理,同时提供数据加工、算法服务任务流程开发、编排与调试、上线、部署、维护等功能。支持流式计算、批量离线计算等类型的计算节点在一个工作流中统一编排,通过可视化操作界面,通过拖拉拽的方式连接计算节点迅速实现数据加工流程编辑。支持通过空间算子编辑器零代码实现对空间数据的处理,包括地址空间化(依赖达摩院地址标准化产品)、坐标转换、矢量分析和计算、栅格分析和计算等。空间计算节点可作为节点任务统一编排到工作流,实现空间数据和非空间数据的融合治理及治理链路固化。

    • 空间服务:支持将空间数管中的各类型空间数据发布成行业标准的空间服务,支持发布 OGC WMTS、WMS、WFS 服务;TMS(MVT)矢量瓦片服务;S3M、3DTiles 等标准的三维服务。同时支持通过 SLD 文件配置地图服务的样式风格。

    • 统一服务:是一款数据中台建设过程中的数据服务化组件,面向数据开发者提供覆盖各个加工阶段统一体验的、便捷的数据查询转服务、服务管理、服务运维能力;面向数据资产管理者提供服务的统计分析、服务用量统计分析能力,实现数据中台建设后半场“数据应用”的有效落地,支撑数据智能应用的高效开发。

    • 运维监控:对数据资源平台中的数据同步、数据开发、标签加工等任务进行运维管理。按业务链路配置监控场景,支持自定义监控链路和告警消息配置,可快速实现从数据生产到业务应用的全链路编排及溯源。

    • 质量评估:对数据模型中建立的逻辑表进行质量规则配置和管理,支持根据配置的质量规则在数据开发环节自动生成质量检测节点和设置自定义质量检查计划。提供面向不同计算资源多种类型质量规则,可通过数据质量监控报告展现系统整体数据质量概览,和多维度细分数据的质量情况。

    • 解决方案:对数据资源平台中已沉淀的数据标准、数据模型、数据加工场景、数据服务 API 配置、云计算资源配置等数据资产进行导入导出,便于在不同环境中快速搭建数据治理工作的初始化。

  • 运营

    • 资产注册:支持平台侧需管理的数据表资产自动化注册功能,可对多个数据源端注册信息进行展示,并通过手动刷新方式同步元数据;同时,可自动上报数据表、标签和 API 资产的信息。

    • 资产目录:支持按资产类型分别维护资产,帮助资产目录内容提供者对各类资产进行管理维护,并针对资产进行编目分类及发布上下线管控。

  • 发现

    • 资产概览:提供统一的数据资源视图,以可视化的方式展示数据表、标签、API 和指标等数据资产的总量与增量的信息。

    • 资产目录:对已接入上线的数据资产,可在资源目录对资产进行搜索、目录列表查看及资产详情信息展示。

  • 数据探索:数据探索面向行业客户/业务人员,提供工具内容一体化的业务模型构建平台,实现低代码、可视化构建全场景专家模型,重塑大数据服务创新模式。平台通过将业务数据沉淀为智能数据或智能算子,以可视化拖拉拽和简单图形化条件设定进行模型编排,支持离线、在线、实时全场景,采用简化建模过程、提高模型运行效能、融合智能化算法等方式帮助用户将数据与业务结合起来,不断积累和沉淀专家业务模型,服务于日常事件挖掘、实时预警事件、在线风险识别。

  • 我的资产:支持我可使用的、我可管理的、我已授权的数据资产及资产信息进行展示、管理。

  • 系统设置:数据资产平台的基础功能,包含账号管理、系统设置。该功能帮助用户快速、便捷完成用户角色及相应权限等基础配置,并实现必要的系统管理与控制,保障模块正常运转。

  1. 火山云-Dataleap

DataLeap 支持多种计算和存储引擎服务,包括火山引擎 E-MapReduce(EMR)、火山引擎云原生数据仓库 ByteHouse、湖仓一体分析服务(LakeHouse Analytics Service,LAS)、火山引擎流式计算 Flink 版等,助您减少适配成本,提升开发体验。

产品架构

DataLeap 基于 EMR、Serverless Flink、ByteHouse、LAS 等存储计算引擎,提供数据资产地图、全域数据治理、全链路研发三大层级能力。

DataLeap 模块简介

DataLeap 套件产品主要包含以下五个方向:管理控制台、数据研发、数据治理、数据资产、通用

所属方向产品模块产品描述
管理控制台租户控制台提供了各种类型的资源组管理、引擎管理、项目级的复查设置、丰富的成员角色定义来解决协同场景下的复杂权限控制和需求,包括任务并行度设置等相关配置,来满足在业务侧的管理诉求。
数据研发数据集成稳定高效的异构数据源同步能力,支持 30+ 丰富的异构数据源之间高速稳定的数据同步。
数据开发一体化集成批式、流式数据 Web-IDE 开发能力,提供一站式全链路研发体验。
发布中心解决开发过程中的可持续集成、可持续交付及可持续部署的问题。提高数据研发效率,保障生产安全稳定,完善数仓研发全链路能力建设。
智慧运维对发布中心至生产环境的任务、基线监控、实例进行统一运维、监控及调度管理。
数据服务支持数据服务 API 一站式生产管理,监控运维,申请共享等,提高统一的数据服务管理和共享能力。
数据治理数据质量通过数据探查、数据监控与数据对比,让用户自主完成数据质量的评估与保障工作。
数据安全数据行列级别权限的控制、风险与自定义审批流审计功能、数据保护,全方位保障大数据资产安全。
规划诊断支持治理负责人根据业务需求,自定义圈选治理范围和规则,发起存储、计算、质量治理方案,诊断待治理资产。
SLA 保障提供SLA在线化申报与签署,并通过多种治理保障措施,协同提高全链路数据质量。
资源优化对成本丰富的分析与优化建议,通过资源优化助力企业节省存储与计算成本。
治理门户一站式的数据治理产品解决方案,覆盖规划-执行-反馈全生命周期的治理流程。
数据资产数据地图收集和展示全链路元数据,数据血缘分析,帮助数据消费者查找、理解、应用数据,提升数据价值。
指标平台集成指标管理,指标计算,指标应用,解决指标定义、生产、出口的一致性问题。
通用值班管理用于创建并管理值班人员,灵活安排值班人员排班,可用于运维排班、监控报警、会议提醒等多种场景。

  1. 百度数据湖管理与分析平台 EDAP

百度数据湖管理与分析平台 EasyDAP(Easy - Data Lake Management and Analysis Platform,简称 EDAP)是一款面向企业的 全场景 、低门槛、开放灵活的大数据管理与分析平台,可一站式完成数据集成、数据治理、数据开发、数据分析、数据服务,并与云计算&存储生态打通, 采、存、管、用 一体化, 帮助企业实现数据价值释放。

企业大数据应用,普遍有数据治理管理难、开发效率低、分析应用技术门槛高的困难:

百度数据湖管理与分析平台 EasyDAP,围绕以数据为核心, 封装数据从汇聚、开发、管理到服务的一整套完整的产品设计体系,屏蔽了大数据相关技术并提供简易的可视化开发操作界面,降低使用门槛 ;无缝对接主流大数据存储计算平台,兼容企业原有 IT 系统、技术栈,并与百度云产品生态打通,降低数据中台建设成本。此外,安全的资源隔离、权限控制、审计日志等,提高数据安全性。

围绕企业大数据开发应用全生命周期,EDAP 提供了包括数据集成、数据湖构建、数据开发 Studio、数据分析等端到端完备功能体系:

  1. 腾讯云:wedata

数据开发治理平台 WeData(以下简称 WeData)是位于云端的一站式数据开发治理平台,融合了包含数据集成、数据开发、任务运维的全链路 DataOps 数据开发能力,以及数据地图、数据质量、数据安全等一系列数据治理和运营能力,帮助企业在数据构建和应用的过程中实现降本增效,数据价值最大化。

核心能力

WeData 提供了数据生产和消费全方位的产品服务,核心服务能力如下:

协同

围绕数据价值链基于协作空间使数据团队不同的角色更好的协作,打破团队间孤岛,缩短从原始数据到数据价值的路径。

DataOps 理念

在大规模任务开发场景下,可以高并发的在线执行数据开发与测试。

开发人员专注任务开发与单元测试,避免业务逻辑学习成本。

编排人员专注任务编排与调度配置,专人专项缩短落地周期。

在敏捷开发场景下,开发与编排的一体化以提高效率。

在编排业务逻辑实现的过程中完成数据任务开发。

可以同时测试数据逻辑与业务逻辑。

实现过程

先开发,后编排:工作流设计不阻塞开发工作,开发无须理解编排逻辑。

开发空间完成后导入编排空间,有专人进行任务编排。

适合中心团队大规模高并发的开发任务。

先编排,后开发:开发人员理解业务逻辑,先设计工作流后开发。

直接在编排空间进行任务编排与开发测试,更敏捷。

适合局点团队小规模或增量任务的敏捷开发模式。

效率

基于 DataOps 敏捷迭代、自动化流程和工具提升数据可靠性,加快数据生产和分析链路效率。

敏捷易用:支持增量式代码开发和发布;支持代码自动补全;可视化拖拉拽方式进行流程设计;支持在线代码调试和日志查看。

开发灵活:开发模式适应多场景,支持先开发后编排以及先编排后开发。

高性能可扩展:高性能调度引擎,支持日千万级任务调度,可对接多种引擎并支持引擎扩展,默认支持大多数 JDBC 接口的引擎,包括 EMR、DLC、TBDS、RDS 等 20+引擎。

DataOps 理念

支持提交、对比、回溯等版本管理能力,以支持任务的灰度发布。

支持任务、事件、参数、函数的增量发布,而非传统的周期性发布。

敏捷开发、快速迭代,以整体上缩短数据资产化的周期。

实现过程

数据任务开发完后需进行版本提交,以反映在工作流中。

不同版本任务可以快速在同一工作流中调试。

不同项目相同工作流基于不同任务版本实现灰度发布。

在发布管理中按照日期进行增量发布,快速迭代。

一体

服务企业数据管理、数据生产、数据应用、数据运营多个角色,给予不同视角一体化的产品体验。

全链路生产治理:通过事前规划、事中异常阻断、事后质量和成本分析以及数据流通安全管控为数据的生产和消费提供有力的质量和安全保障。

一站式运营治理:基于数据自服务和民主化理念,在安全稳定的基础上,通过数据地图、数据洞察和共享,让数据的查找、理解、分析和共享更容易。

质量

贯穿事前中后的数据质量控制,融入 DataOps 管道式开发流程,全面保障数据质量提升。

DataOps 理念

从事后的质量评分转为事中的质量监控,一体化测试由代码测试与数据测试两方面组成,以保证数据分析的高质量。

从事后的标准对标转为事前的标准落标,以保证数据分析时的数据质量、统计口径的一致性。

实现过程

数据任务/工作流提交版本前要求通过在线调试,在线调试会自动拉起数据表对应的质量监控任务。

敏捷数仓建模工具在数据建模时支持直接引用事前定义好的数据标准,在源头上做到落标。

遵从数据标准的表在进行数据集成任务时,支持对脏数据设置零容忍阈值来做到贯标。

  1. 华为云-DataArts Studio

数据治理中心 DataArts Studio 是为了应对上述挑战,针对企业数字化运营诉求提供的具有数据全生命周期管理和智能数据管理能力的一站式治理运营平台,包含数据集成、数据开发、数据架构、数据质量监控、数据资产管理、数据服务、数据安全等功能,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业快速构建从数据接入到数据分析的端到端智能数据系统,消除数据孤岛,统一数据标准,加快数据变现,实现数字化转型。

如图所示,DataArts Studio 基于数据底座,提供数据集成、开发、治理等能力。DataArts Studio 支持对接所有华为云的数据湖与数据库云服务作为数据底座,例如 MRS Hive、数据仓库服务 DWS 等,也支持对接企业传统数据仓库,例如 Oracle、MySQL 等。

DataArts Studio 包含如下功能组件:

  • 管理中心

  • 提供 DataArts Studio 数据连接管理的能力,将 DataArts Studio 与数据底座进行对接,用于数据开发与数据治理等活动。

  • 数据集成

  • 数据集成提供 20+简单易用的迁移能力和多种数据源到数据湖的集成能力,全向导式配置和管理,支持单表、整库、增量、周期性数据集成。

  • 数据架构

  • 作为数据治理的一个核心模块,承担数据治理过程中的数据加工并业务化的功能,提供智能数据规划、自定义主题数据模型、统一数据标准、可视化数据建模、标注数据标签等功能,有利于改善数据质量,有效支撑经营决策。

  • 数据开发

  • 大数据开发环境,降低用户使用大数据的门槛,帮助用户快速构建大数据处理中心。支持数据建模、数据集成、脚本开发、工作流编排等操作,轻松完成整个数据的处理分析流程。

  • 数据质量

  • 数据全生命周期管控,数据处理全流程质量监控,异常事件实时通知。

  • 数据目录

  • 提供企业级的元数据管理,厘清信息资产。通过数据地图,实现数据血缘和数据全景可视,提供数据智能搜索和运营监控。

  • 数据服务

  • 数据服务定位于标准化的数据服务平台,提供一站式数据服务开发、测试部署能力,实现数据服务敏捷响应,降低数据获取难度,提升数据消费体验和效率,最终实现数据资产的变现。

  • 数据安全

  • 数据安全为数据治理中心提供数据生命周期内统一的数据使用保护能力。通过访问权限管理、敏感数据识别、隐私保护管理等措施,帮助用户建立安全预警机制,增强整体安全防护能力,让数据可用不可得和安全合规。

  1. 天翼云:(和华为的很像,可能一个团队开发)

数据治理中心 DataArts Studio,是为了应对企业数据管理问题、针对企业数字化运营诉求提供的数据全生命周期管理、具有智能数据管理能力的一站式治理运营平台。

数据治理中心 DataArts Studio 包含数据集成、数据开发等功能,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业快速构建从数据接入到数据分析的端到端智能数据系统,消除数据孤岛,统一数据标准,加快数据变现,实现数字化转型。

  1. 移动云:只有大数据开源基础设施

  2. 联通云:有一些数据基础零散组件,不是一个整体解决方案

阿里

字节

百度

华为

腾讯

dataworks

dataphin

数据资源平台

dataleap

EDAP

DataArts Studio

weDATA

数据生产

项目管理

文档管理

数据集成

实时

1

1

1

1

1

1

1

离线

1

1

1

1

1

1

1

数据设计

数仓+模型

1

1

1

1

1

1

0

指标平台

1

1

1

1

1

1

0

数据开发

离线任务开发

1

1

1

1

1

1

1

代码管理(搜索)

1

1

1

1

0

1

1

发布&上线管理

1

1

1

1

1

1

1

监控报警

1

1

1

1

1

1

1

值班表

1

1

0

1

0

0

0

任务运维

1

1

1

1

1

1

1

数据服务

数据服务

1

1

1

1

1

1

1

数据分析(可视化)

1

1

1

0

0

0

0

画像&标签

0

1

0

0

0

0

0

BI

元数据

数据地图(资产管理)

1

1

1

1

1

1

1

血缘

1

1

0

1

1

1

1

数据治理

基线告警

1

1

0

1

0

0

0

复盘管理

0

0

0

1

0

0

0

数据质量

1

1

1

1

0

1

1

数据质量-探查

1

1

0

1

0

0

0

存储资源治理

0

1

0

1

0

0

0

计算资源治理

1

1

0

1

0

0

0

安全

权限

1

1

1

1

1

1

1

审计

1

1

1

1

0

1

1

分级分类

1

1

0

1

1

1

1

扫描自动分类

1

1

0

1

0

0

1

加解密+脱敏

1

1

0

1

1

1

1

总和得分

9

9

8

9

7

8

8

http://www.dtcms.com/a/533686.html

相关文章:

  • 基于python大数据的台风灾害分析及预测系统
  • 城乡住房建设网站手机网站最小宽度
  • 华为OD算法开发指导-比赛的冠亚季军
  • 算法:矩形面积II
  • app怎么查网站备案计算机网站php设计代做
  • 晋中公司做网站装修效果图软件app哪个好
  • yum安装配置
  • 网站标题算关键词优化吗吴忠北京网站建设
  • 做ps网页设计的网站有哪些wordpress配置文件路径
  • 笔试强训(九)
  • 线程池ThreadPoolExecutor
  • 合同的系统培训约定
  • cf租号网站怎么做的河南建设安全协会网站
  • 建设的网站别人登录密码公司企业邮箱号
  • 电商网站怎样做天津网站建设哪个好
  • 长沙网站建设接单wordpress站点名没有更改
  • 手机wap网站建设一套完整的app 开发流程
  • 在线制作wap网站中牟建设工程信息网站
  • K8S--标签(labels)和选择器(selectors)的作用
  • G1 垃圾收集器
  • 湛江免费建站公司磁力在线搜索引擎
  • 广东省城乡建设厅网站首页如何判断网站有cdn加速
  • Bugku-Web题目-no select
  • 健康门户网站建设内容求职网站开发
  • Linux 信号处理视角下的 volatile 关键字
  • 广告文案优秀网站网络推广营销方式
  • 增城高端定制网站建设网站建设全域云
  • 小型深圳网站页面设计网页制作基础教程代码
  • 周学习记录
  • 建设网站职业证书查询wordpress菜单前面加图标