数据中台笔记01
一、数据中台大纲
1.1、 课程概述
1)数据中台诞生的背景和历史
- 核心价值:解决企业"重复造轮子"问题,通过统一平台实现多业务数据关联。
- 典型问题:数据质量监控、血缘关系管理等场景的标准化处理。
- 行业需求:阿里等企业实践验证了中台模式在数据治理中的必要性。
2)初识数据中台
- 核心组件:Apache Griffin作为数据质量管理工具。
- 功能覆盖:
- 离线数据库管理(RDBMS等关系型数据库)
- 实时数据流处理(如Kafka消息队列)
- 实施层级:构成数据中台基础架构的第一层能力支撑。
3)数据治理与Apache Atlas
- 核心功能:元数据管理与数据血缘追踪。
- 关键技术:
- 元数据搜索与发现机制
- 数据关联关系可视化
- 概念延伸:区分"元数据"与"元数据的元数据"层级关系。
4)元数据管理
- 管理范围:涵盖Hive、HBase、Kafka等大数据组件的元数据。
- 存储方案:例如Hive元数据通常存储在MySQL特定区域。
- 高级功能:通过Atlas实现跨组件数据血缘关系分析。
5)数据中台企业应用
- 安全集成:与Apache Ranger配合实现权限控制。
- 典型场景:
- 数据分级授权(如Hive表权限管理)
- 实时数据管道监控
- API扩展:通过Atlas REST API实现系统集成。
6)数据中台总结
- 综合能力:
- 数据生命周期管理
- 质量监控体系
- 血缘关系追溯
- 实施路径:从工具应用到业务场景落地的完整方法论。
1.2、知识小结
知识点核心内容 | 考试重点/易混淆点 | 难度系数 |
---|---|---|
数据中台概念 | 定义、作用及企业应用场景(解决重复造轮子、数据关联性问题) | 数据中台与传统数据平台的区别 |
数据质量管理(Griffin) | 支持离线(RDBMS)与实时(Kafka)数据质量监控 | 实时与离线场景的技术实现差异 |
数据治理工具(Atlas) | 元数据管理、数据关联与血缘关系发现 | 元数据 vs. 元数据的元数据 |
业务元数据管理 | Hive/Kafka等组件的元数据存储(如MySQL)与Atlas集成 | 多组件元数据的统一管理策略 |
权限控制(Ranger) | 与Atlas结合实现数据分级授权(Hive/Kafka元数据权限) | 权限粒度与性能平衡 |
数据导入导出与API | Atlas REST API操作与数据生命周期管理 | API调用的安全限制 |
综合案例实战 | 数据质量+血缘+权限全流程演练 | 多模块协同的典型业务场景 |
二、初识数据中台
2.1、数据中台与存在的意义
2.1.1、 什么是数据中台
- 桥梁作用:数据中台是介于前台和后台之间的中间层,起到数据桥梁作用,类似于数据服务接口的概念。
- 平台特征:形成"大中台、小前台、轻后台"的架构模式,保证中台数据不重复,支持敏捷化开发。
- 技术基础:通过Apache Griffin等数据技术对海量数据进行采集、存储、计算、加工和标准化处理。
- 核心价值:企业级能力复用平台,范围覆盖整个企业而非单个系统,核心价值在于功能复用。
2.1.2、 中台的历史来源
- 起源公司:2015年阿里巴巴借鉴芬兰游戏公司Supercell的团队模式。
- 创新模式:Supercell采用5-7人小团队开发模式,背后有强大中台提供技术支持。
- 管理创新:采用"开发者领导"的倒金字塔管理模式,CEO自称"行业最没权力的CEO"。
- 国内发展:阿里云OneData平台是国内最早的数据中台实践案例。
2.1.3、中台解决了什么痛点
-
企业前方市场与企业内部支撑的冲突
- 矛盾本质:客户需求多变性与技术支撑稳定性之间的矛盾。
- 消耗问题:长期应对需求变化会大量消耗企业内部资源。
- 解决方案:将变化部分与非变化部分分离,有序处理核心问题。
-
前台与后台的冲突
- 前台特点:需要快速响应用户需求,支持快速迭代和低成本试错。
- 后台特点:要求扎实稳定,建成后不能轻易改动,改动成本极高。
- 依赖问题:前台依赖后台数据,后台又依赖业务系统,形成耦合冲突。
- 解决方向:通过前后台解耦来缓解系统层级的冲突。
-
企业各处是墙
- 现象描述:大企业普遍存在部门墙、业务墙、数据墙等问题。
- 产生原因:各部门为自身KPI考虑,不愿支持跨部门协作。
- 资源浪费:相同服务被不同部门重复建设,造成资源浪费。
- 解决方案:建立统一数据平台,打破部门壁垒。
2.1.4、 数据中台类型
- 业务中台:提供用户中心、订单中心等可重用服务。
- 算法中台:提供个性化算法能力,增强用户体验。
- 技术中台:解决基础设施、分布式数据库等底层技术问题。
2.2、知识小结
知识点核心内容 | 考试重点/易混淆点 | 难度系数 |
---|---|---|
数据中台的定义 | 介于前台与后台之间的桥梁,实现数据统一管理、标准化和复用 | ⭐⭐ |
数据中台的意义 | 解决企业数据重复建设、部门墙问题,提升开发效率,“大中台、小前台”模式的价值 | ⭐⭐⭐ |
历史起源 | 2015年阿里巴巴借鉴芬兰游戏公司Supercell的团队模式提出中台概念 | ⭐⭐ |
关键要素 | 数据采集、存储、计算、加工的统一标准和口径,复用能力的实现方式 | ⭐⭐⭐⭐ |
技术工具 | Apache Griffin(数据质量监控)、Apache Flink等,工具选型与实际业务场景的匹配 | ⭐⭐⭐ |
解决痛点1 | 企业内部支撑与外部需求变化的 |