列举一些数据仓库面向主题的设计的实际案例
数据仓库的面向主题设计是区别于传统OLTP系统按业务流程设计的核心特征。它围绕企业的核心业务实体和分析领域来组织数据,而不是围绕具体的业务功能(如销售、库存等模块)。
下面列举几个经典行业的实际案例,详细说明其主题划分、包含的维度和事实。
案例一:零售电商行业
这是最经典的数据仓库主题模型案例。
核心业务目标: 分析销售业绩、理解客户行为、优化商品库存、评估营销效果。
常见主题域划分:
-
销售主题
- 核心分析问题: 卖了什么?卖了多少?什么时候卖的?在哪里卖的?谁卖的?
- 核心事实表:
销售订单事实表:粒度 - 每个订单项销售退货事实表:粒度 - 每个退货项
- 主要维度表:
时间维度(年、季度、月、日、节假日标志)商品维度(商品ID、品类、品牌、SKU属性)客户维度(客户ID、人口统计信息、会员等级)店铺维度(店铺ID、区域、城市、级别)渠道维度(线上APP、线上PC、线下门店)促销维度(促销活动ID、类型、折扣力度)
-
客户主题
- 核心分析问题: 我们的客户是谁?他们的生命周期价值如何?留存和流失情况怎样?
- 核心事实表:
客户生命周期事实表(周期快照):记录客户在固定时间点(如每天)的状态,如注册天数、最近购买时间、累计购买金额等。
- 主要维度表:
客户维度(同上,但会更详细,包含行为标签)时间维度
-
商品主题
- 核心分析问题: 商品的库存周转率如何?哪些是畅销品/滞销品?商品利润如何?
- 核心事实表:
库存事实表(周期快照):每天结束时每个SKU的库存量。商品采购事实表(事务):每次采购入库的明细。
- 主要维度表:
商品维度供应商维度仓库维度时间维度
-
营销主题
- 核心分析问题: 哪个营销活动带来的流量和销售额最高?ROI如何?
- 核心事实表:
营销活动响应事实表:将销售事实与营销活动关联起来,记录某次销售是源自哪个营销活动。
- 主要维度表:
营销活动维度渠道维度时间维度
案例二:金融保险行业
核心业务目标: 风险管理、客户价值分析、精准营销、理赔分析。
常见主题域划分:
-
保单主题
- 核心分析问题: 保单的销售情况、保费收入、续保率、风险敞口。
- 核心事实表:
保单事实表(事务):新保单签发。保费事实表(周期快照):每月/每季的保费缴纳情况。
- 主要维度表:
时间维度客户维度(投保人、被保人)产品维度(保险产品类型、保额、期限)机构维度(分公司、销售团队、代理人)
-
理赔主题
- 核心分析问题: 理赔频率、理赔金额、欺诈风险分析。
- 核心事实表:
理赔事实表(事务):每笔理赔申请的详细信息。
- 主要维度表:
时间维度客户维度产品维度理赔原因维度(事故类型、损伤部位)
-
客户主题
- 核心分析问题: 客户分层(高净值、普通)、客户流失预测、交叉销售机会。
- 核心事实表:
客户关系事实表:记录客户与公司的多种产品关系(如一个客户同时持有保单、信用卡、存款账户)。
- 主要维度表:
客户维度(非常详细,包含信用评分、风险偏好等)
案例三:互联网/SaaS行业
核心业务目标: 用户增长分析、用户参与度、产品性能、商业化变现。
常见主题域划分:
-
用户行为主题
- 核心分析问题: 用户在APP/网站上的行为路径是什么?功能使用情况如何?留存率是多少?
- 核心事实表:
事件事实表(事务):粒度 - 每一个用户行为事件,如AppLaunch,ViewPage,ClickButton,Purchase。
- 主要维度表:
时间维度(精确到毫秒)用户维度产品功能维度(页面、按钮、模块)设备维度(OS、型号、App版本)
-
用户留存主题
- 核心分析问题: 新用户的次日、7日、30日留存率如何?不同渠道来源的留存有差异吗?
- 核心事实表:
用户留存事实表(累积快照):记录用户的“生命周期旅程”,如注册日期、首次付费日期、最后活跃日期等。
- 主要维度表:
用户维度渠道维度(自然流量、付费广告、社交媒体)
-
营收主题
- 核心分析问题: MRR(月经常性收入)、ARR(年经常性收入)是多少?客户流失对收入的影响?
- 核心事实表:
订阅事实表(周期快照):每月每个客户的订阅状态和付费金额。
- 主要维度表:
时间维度客户维度产品套餐维度
案例四:制造业
核心业务目标: 生产效率、质量控制、供应链优化、成本控制。
常见主题域划分:
-
生产主题
- 核心分析问题: 设备利用率(OEE)如何?生产周期是多长?次品率是多少?
- 核心事实表:
生产工单事实表(事务):每个工单的开始、结束。设备运行事实表(周期快照):每隔一段时间记录设备的运行状态、产量。
- 主要维度表:
时间维度设备维度产品维度(生产的成品)产线维度操作员维度
-
供应链主题
- 核心分析问题: 物料需求计划、供应商交货准时率、库存周转天数。
- 核心事实表:
采购事实表库存事实表物流事实表
- 主要维度表:
时间维度物料维度供应商维度仓库维度
总结:面向主题设计的核心思想
| 传统OLTP系统 (面向应用) | 数据仓库 (面向主题) |
|---|---|
| 设计围绕业务流程和功能 | 设计围绕分析领域和决策支持 |
| 表结构高度规范化,减少冗余 | 表结构反规范化(星型/雪花模型),优先查询性能 |
| 优化事务处理(增删改) | 优化复杂查询(大数据量扫描和连接) |
| 数据是当前状态 | 数据是历史性、随时间变化的 |
通过以上案例可以看出,“主题” 本质上是企业数据分析的高层视角,它独立于具体的业务系统,将分散在不同系统(如ERP、CRM、MES)中的数据整合成一个统一的、易于理解的视图,从而为战略决策提供支持。
