数据产品(3)-数据中台
目录
- 1 数据中台建设之必要性
- 2 数据中台落地方法论
- 3 数据中台落地要点分析
- 4 数据中台模型设计
- 5 数据中台赋能新场景
1 数据中台建设之必要性
数据中台:数据资产中台化,和数据平台有强烈区隔,包括:数据平台层、建模工具层、数据服务层。数据服务主要提供产业标准主数据服务、画像标签服务、关系图谱服务、产业商情服务、消费者评价服务、报表服务、API数据服务
技术驱动力,解决前台的快速迭代和后台的配速问题
eg:阿里数据中台解决的问题:
1、数据共享挑战
2、产品创新与新业务赋能
3、技术挑战,形成了高质量、高可用、全域统一的数据平台
4、组织变革,打破壁垒,提升效能
技术视角:大数据下的数据消费思维
1、从样本思维转向总体思维
2、从精确思维转向容错思维
3、从因果思维转向相关思维
数据视角:从业务数据化到数据资产化
应用视角:从辅助决策到睡觉驱动
企业为什么需要数据中台:
1、ToB价值驱动力:智慧寻源,精准供需对接,基于营销导向的精益采购解决方案
2、ToC价值驱动力:数据驱动业务决策与产品智能,价值表现(创新力、场景驱动、经验沉淀)
3、提效降本、创新发展、实现降维打击
数据数据中台目标:创新敏捷、数据资产化、数据智能化、数据产品化
数据中台核心能力:
1、采集并治理跨域数据
2、形成数据资产层
3、增强"数据应用"迭代能力
4、形成API化的数据服务
5、数据支撑智能服务
数据中台与数据仓库的异同:
相同点:数据分层与汇聚;数据标准制定
不同点:
1、理念不同(数仓IT技术角度,中台DT的角度,更多服务于业务视角,强调业务引领);
2、数据来源不同(中台全域数据,包括业务数据库、日志、埋点、爬虫、外部数据,有结构化和非结构化数据,而数仓主要是业务数据,以结构化数据为主)
3、数据应用方面不同
4、依赖平台不同
2 数据中台落地方法论
业务数据化、数据资产化、资产服务化
业务生产数据,数据反哺业务,前者强调业务数据的沉淀和收集,后者强调数据的应用
大数据时代:通过“完整”的业务数据将业务场景还原,尽可能实现场景复现
如:通过用户行为数据分析留存情况,用用户属性数据做用户画像,智能推荐
业务数据化现状:
1、完全没有数据:新建业务系统、行为数据、爬虫数据等采集数据
2、没有可用数据:数据加工、分析处理
3、数据分散:数据仓库,统一汇总层建设
4、数据难联通:面向数开提供数据交换ETL工具,需要能够对接市面上大多数主流平台+数据源
5、数据联通效率低:面向实施人员提供数据交换工具,可视化配置
6、批流一体化数据移动和存储能力:满足多元异构数据的存储平台,批流一体化的数据转换平台
数据转换工具:传统ETL已逐步转向ETL(批处理)+ELT(流数据)工具
数据资产分类:
数据模型数据仓库主题数据、主数据、数据目录
标签模型构建的标签
搜索模型构建的索引
日志模型DataVault模型下的分析行为数据
知识图谱模型构建的知识库
训练好的算法模型
数据资产实现的目标:可见可懂可用可运营
3 数据中台落地要点分析
数据中台的实施需要考虑哪些要素:
数据孤岛、数据资产化程度低、数据服务效率不高
1、统一存储建设:数据湖
2、数据集成(清洗、融合、变换、规约)
3、数据移动:支持多源+多态+实时+批量
4、建模流程及逻辑架构
5、数仓应用组件
6、增量、整库数据集成
7、数据安全问题,数据脱敏
8、灵活的调度服务(年月日小时分钟毫秒级)
数据同步:ETL与ELT
4 数据中台模型设计
1、用户行为数据:多维模型
2、业务数据分析:多维CUBE
3、业务数据仓库
4、标签画像建模
5、知识图谱建模
6、智能搜索建模
移动行为风逆袭面向的业务场景模型AARRR
DataVault模型:一种面向细节的、可追踪历史的、与业务逻辑无关的数据建模方法。它专门设计用于应对现代数据仓库的挑战,如处理大量数据、适应业务变化的敏捷性、实现数据可审计性和自动化加载。它不关心数据最终如何被使用(比如生成报表),它的首要任务是安全、完整、精确地接收和存储来自各个业务系统的原始数据,并保留所有的历史和关系
在现代数据架构中的位置:
Data Vault通常用于数据仓库的核心集成层。
数据源:ERP, CRM等业务系统。
数据集成层:采用Data Vault模型,这里存储的是原始的、未修饰的、全历史的企业“单一事实来源”。
业务数据市场:基于Data Vault层,根据具体的业务需求(如报表、分析、AI),构建出易于理解的维度模型或宽表。
消费层:BI工具、AI/ML应用等直接访问数据市场。
星型模型:与Data Vault这种面向数据整合和历史的“后台”模型不同,星型模型是专门为最终用户查询和数据分析而设计的“前台”模型。星型模型是一种维度建模技术,其结构因其图形类似于一颗星星而得名。它由一个中心的事实表和多个环绕的维度表组成,旨在最大限度地提高查询性能,并让业务用户能够直观地理解和使用数据。Data Vault是数据的“原材料仓库”,星型模型就是面向客户的“零售商店”或“展示厅”,数据在这里被包装和组织成易于理解和消费的形式。
OLAP(在线分析处理)的三种主要架构:ROLAP、MOLAP和HOLAP,它们代表了数据和计算的不同组织方式。简单来说,它们的核心区别在于 数据和索引存储在哪里,以及计算在哪里执行。
5 数据中台赋能新场景
现有如:TalkingData、个推、极光大数据、用友、明略数据、百分点(TOB)、神策数据(TOC)
数据开发:离线开发、实时开发、算法开发
数据资产:数据标准、数据安全
数据存储:NewSQL、NewDB