Gartner《Guidance Framework for a Modern Data Integration Architecture》学习心得
摘要
本研究重点强调了数据集成架构在收集和提供业务流程和数据洞察方面的重要性,并为数据和分析技术专业人员提供了如何设计现代数据集成架构及其能力的指导。
关键发现
-
数据集成通常被视为更大项目中的任务,其本身并非业务目标,而是一种支持业务需求的方法。
-
随机的数据集成交叉会无序增长,导致出现多个数据真实版本,集成和流程孤立且不受信任。
-
有效的数据集成可提高业务和技术组织的效率,验证数据和分析管道及其结果。
-
现代集成架构能将集成作业组织成连贯有序的环境,使数据及其相关管道易于理解和访问。
建议的问题陈述
数据集成工作包括找到数据源、执行转换、清理数据等,但在动态业务需求下,集成交叉的构建往往以速度和准确性为重,而忽视了组织化、管理化和标准化框架。这导致技术组织陷入快速发展、确保数据质量等恶性循环,还引发关于结果、数据质量、数据来源等问题。
Gartner推荐的方法
Gartner将数据集成定义为允许组织跨多种数据源和类型一致访问和交付数据的学科,涵盖架构模式、方法和工具。数字经济对数据服务的需求增加,给IT部门带来压力,资源紧张,自服务集成虽能减轻压力,但未受管控的集成泛滥使问题恶化。理想的集成架构应尽可能简单,灵活且能预测未来数据和集成需求。
指导框架的五个步骤
1):需求
-
源数据格式
-
表格1解析:
-
特性:包括数据模型(是否预定义、是写入时模式还是读取时模式等)、位置(如Excel/CSV文件、关系型数据库等)、操作模型(是否基于时间、基于流还是基于批处理等)、是否具有方案(如标准基于格式的方案:XSD/XML、JSON等)、数据格式复杂性及存储方式等。
-
集成方法:根据不同的数据格式,匹配相应的集成方法,如ETL/ELT、流处理等。
-
-
实际应用:不同数据格式具有不同的存储和处理需求,了解这些特性有助于选择最合适的集成方法,从而优化数据处理流程,提高数据质量和处理效率。
-
-
业务流程和转换规则
-
问题解析:
-
数据来源:确定数据的原始位置和产生方式。
-
数据创建方式:如果涉及新数据点,需明确其创建机制。
-
数据创建责任方:了解谁有权限创建数据,以便于数据管理和控制。
-
历史数据修改:确定业务变化时,历史数据是
-
-