19. 大数据-产品概念
文章目录
- 前言
- 一、数据库
- 1. 简介
- 2. 使用场景
- 3. 数据库类型
- 4. 数据类型
- 二、数据仓库
- 1. 简介
- 2. 使用场景
- 3. 数据仓库架构
- 三、数据平台
- 1. 简介
- 2. 使用场景
- 3. 数据仓库架构
- 四、数据中台
- 1. 简介
- 2. 使用场景
- 3. 数据中台架构
- 五、数据湖
- 1. 简介
- 2. 使用场景
- 3. 数据湖架构
- 六、总结
- 1. 区别
- 2. 联系
前言
``
数据库、数据仓库、数据平台、数据中台、数据湖。
一、数据库
1. 简介
数据库是用于存储、管理、维护和检索数据的系统。是所有软件应用、网站、企业信息系统和数据驱动决策的基础。简单来说就是:数据库就是一个存储信息(水)的容器。
2. 使用场景
3. 数据库类型
数据库类型:
关系型数据库和非关系型(NoSQL)数据库。
非关系型又分为四种类型:键值型、列存储型、文件型和图形数据库。
4. 数据类型
某些数据库(如 MongoDB)可以分为多个类别,因为它们支持不同的数据模型。此外,所提供的列表并不详尽,因为每个类别中还有许多其他数据库可用。
数据可以是结构化的、半结构化的,也可以是非结构化的,并以表格、文档和键值对等各种格式存储。它可以是任何东西,从简单的购物清单到图片库,再到企业网络中的大量信息。
数据库的重点在事务处理,可以简单理解为SQL操作上,不擅长数据分析。
二、数据仓库
1. 简介
数据仓库是一个集中式存储库,用于存储,来自多个数据源的大量结构化数据。它使组织能够整合数据,进行数据分析、报告等。
例如:数据库是超市的一瓶水或酒,数据仓库就是超市的酒水展览区。
2. 使用场景
3. 数据仓库架构
数据仓库适合处理结构化数据进行分析,但是无法处理半结构化、非结构化数据,也无法实时进行数据分析。
三、数据平台
1. 简介
数据平台是一个全面的技术解决方案,对数据生命周期的整个数据处理流程,包括数据的收集、存储、管理、分析和可视化。它不仅包含数据仓库的功能,还扩展了非结构化数据的采集、大数据处理、实时分析、数据科学和机器学习等能力。
例如:数据平台就是超市的管理办公室,管理商品的摆放、下架等等。
2. 使用场景
3. 数据仓库架构
数据平台擅长处理结构化、非结构化数据,并深度、实时分析,生成报告,但相对较为闭塞。
四、数据中台
1. 简介
数据中台是一种以数据为核心的架构和理念,旨在构建一个集中、可控、高效的数据管理平台。它将企业内外的各类数据整合,通过统一的标准和规范,实现数据的互通和共享。
例如:数据中台就是超市的供应链,接收派发来自不同厂家的商品、物资等,进行分类、存储和摆放。
2. 使用场景
3. 数据中台架构
数据中台能提供API或其他共享方式提供数据服务,确保数据快速、灵活地服务于业务,加速决策。但是缺少原始的、未加工的形式的数据。
五、数据湖
1. 简介
数据湖是一个未整合的、非面向主题的数据集合。数据湖可以存放来源不同的任何类型的数据,这些数据可以是结构化的、非结构化的、半结构化的。它是你可以以可伸缩的方式存储和处理所有数据的地方。
例如:数据湖就是N个超市(还是不同类型的),山姆+华润万家+朴朴+摆地摊等等。
2. 使用场景
3. 数据湖架构
数据湖是一个存储(N多数据)原始数据的地方,适合为数据分析人员和数据科学家提供一个自由探索的环境,他们可以在这里挖掘数据,发现新的见解。就像是一个实验室,里面的化学用品(数据)可以被拿来分析和实验,看看能发现什么新东西。
六、总结
1. 区别
总的来说,数据库是数据管理的基础,数据仓库用于分析和决策支持,数据平台提供全面的数据处理能力,数据中台强调数据的整合和共享,数据湖则用于存储大量的原始数据。这些技术在不同的场景中都有各自的价值。
- 数据类型:
-
数据库:主要处理结构化数据,有明确的数据结构和模式。
-
数据仓库:通常处理结构化数据,经过了一定的清洗、转换和整合。
-
数据平台:能够处理结构化、半结构化和非结构化数据。
-
数据中台:整合了多种类型的数据,包括结构化、半结构化和非结构化。
-
数据湖:可以容纳各种类型的数据,包括原始的、未经处理的结构化、半结构化和非结构化数据。
- 数据用途:
-
数据库:支持日常的事务处理,如订单录入、客户信息管理等。
-
数据仓库:用于数据分析和决策支持,例如生成报表、进行数据挖掘。
-
数据平台:涵盖了数据的全生命周期管理,包括采集、存储、处理、分析和应用。
-
数据中台:着重于打破数据孤岛,实现数据的共享和复用,以支持快速的业务创新。
-
数据湖:作为数据的存储池,为后续的分析和处理提供原始数据。
- 数据模式:
-
数据库:遵循严格的预定义模式。
-
数据仓库:通常有较为固定的模式,但相对数据库可能更具灵活性。
-
数据平台:模式较为灵活,可根据不同的处理需求进行调整。
-
数据中台:强调统一的数据标准和规范,以确保数据的一致性和可用性。
-
数据湖:没有预先定义的模式,数据在写入时无需进行模式定义。
- 数据处理速度:
-
数据库:注重事务处理的速度和一致性。
-
数据仓库:处理大规模数据的分析查询,速度相对较慢。
-
数据平台:性能取决于具体的技术架构和配置。
-
数据中台:致力于提供快速的数据服务和响应能力。
-
数据湖:在处理大规模数据时,性能可能会受到存储架构和计算资源的影响。
- 成本:
-
数据库:相对较低的建设和维护成本。
-
数据仓库:建设和维护成本较高。
-
数据平台:成本因规模和技术选型而异。
-
数据中台:通常需要较高的投入来构建和运营。
-
数据湖:存储成本可能较高,但处理成本相对较低。
2. 联系
它们共同构成了企业的数据管理体系,相互协作以满足不同的业务需求。
-
数据库为其他组件提供了基础的数据来源。
-
数据仓库常常从数据库中获取数据,并进行整合和分析。
-
数据平台可以整合来自数据库、数据仓库、数据湖等的数据,并提供统一的处理和管理环境。
-
数据中台依赖于数据库、数据仓库和数据平台等提供的数据,实现数据的共享和服务化。
-
数据湖可以作为数据的原始存储,为数据仓库、数据中台等提供数据支持。
例如:一家超市企业可能使用数据库来管理订单和用户信息,将这些数据抽取到数据仓库进行销售趋势分析,利用数据平台进行大数据处理和机器学习模型训练,通过数据中台实现数据在不同业务部门的共享和复用,同时将大量的用户行为数据存储在数据湖中以备后续的深入分析。
本文的引用仅限自我学习如有侵权,请联系作者删除。
参考知识
一文读懂数据库、数据仓库、数据平台、数据中台、数据湖