四、数据湖应用平台架构
数据湖应用平台是一个用于存储、处理和分析大容量、用途数据的平台。它旨在以隐蔽、高效率的方式,为企业提供全面的数据管理和应用能力。
核心概念
-  数据湖:一个集中各种原始格式数据的存储库,包括格式化数据、半格式化数据和非格式化数据。 
-  数据应用:基于数据湖构建的各种数据分析、挖掘和应用服务,例如: -  数据图表 
-  线路 
-  商业智能 
-  预测分析 
 
-  
1.要素组成
一个典型的数据湖应用平台架构通常包括以下几个核心组件:
-  数据采集层: -  从各种数据源(如数据库、日志、传感器、Web应用等)采集数据。 
-  支持批量采集和实时采集。 
-  常用工具:Flume、Sqoop、Kafka。 
 
-  
-  汇率层: -  存储原始数据,包括重构、半重构和非重构数据。 
-  支持海量数据存储和高并发访问。 
-  常见技术:Hadoop HDFS、对象存储(如Amazon S3、阿里云OSS)。 
 
-  
-  数据处理层: -  对数据进行清洗、转换、整合等处理,满足应用需求。 
-  支持批处理和流处理。 
-  常见技术:Spark、Hadoop MapReduce、Flink。 
 
-  
-  数据服务层: -  提供统一的数据访问接口,封装基础的数据处理细节。 
-  支持多种数据查询和分析服务。 
-  常见技术:Presto、Hive、Impala。 
 
-  
-  数据应用程序层: -  基于数据湖构建的各种数据应用,例如数据可视化、机器学习、商业智能等。 
-  提供丰富的API和工具,方便用户开发和使用数据应用。 
 
-  
2.技术选择型
构建数据湖应用平台需要选择合适的技术和工具,以下是一些常见的选择:
-  大数据计算框架: Hadoop、Spark、Flink 
-  数据存储: Hadoop HDFS、对象存储(Amazon S3、阿里云OSS) 
-  数据仓库: Hive、Impala、Presto 
-  数据可视化: Tableau、Power BI 
-  机器学习: TensorFlow、PyTorch、Scikit-learn 
3.应用场景
数据湖应用平台广泛评价各种场景,例如:
-  金融行业: -  风险管理 
-  客户肖像 
-  检测 
 
-  
-  电商行业: -  用户行为分析 
-  商品推荐 
-  营销活动效果分析 
 
-  
-  物联网行业: -  设备监控 
-  故障预测 
-  运营 
 
-  
4.优势
-  灵活:支持存储各种类型的数据,无需预先定义的数据结构。 
-  可扩展性:支持大规模数据存储和处理。 
-  亮点:采用亮点的存储和计算技术。 
-  开放性:提供丰富的API和工具,方便用户开发和使用数据应用。 
5.架构解析
 
 
 关键组件及其关系的细分:
(1)业务支持层(顶部): 此层专注于平台如何满足业务需求,具有以下功能:
-  管理驾驶舱:提供关键绩效指标和业务洞察的概述。 
-  用户分析和客户营销:了解用户行为和推动营销策略的工具。 
-  财务分析和资金管理:支持财务规划、跟踪和资源分配。 
-  容量预测和风险审计:预测资源需求并识别潜在风险。 
-  监管报告和绩效评估:确保合规性并衡量绩效。 
(2)数据统一门户: 作为所有数据相关服务和信息的中央访问点。
(3)安全系统(右侧): 强调平台的安全框架,包括:
-  标准规范体系:定义数据标准和质量。 
-  运行维护体系:保障平台平稳运行。 
-  安全系统:保护数据免遭未经授权的访问和泄露。 
(4)数据共享与开放平台: 促进受控数据共享和访问,包括以下功能:
-  数据需求管理和数据资产目录管理:管理数据请求并记录可用的数据资产。 
-  应用程序集成和操作可视化:连接不同的应用程序并提供数据使用情况的洞察。 
-  用户/权限管理和租户管理:控制访问并隔离不同用户或组的数据。 
-  数据产品管理和数据资产评估:管理和评估数据产品。 
-  共享服务管理(注册、发布、订阅、认证、授权):简化数据共享流程。 
-  共享服务引擎(文件、库表、接口共享服务):实现不同模式的数据共享。 
-  数据资产营销与推广/价值变革:数据资产的推广与货币化。 
(5)AI中心和数据服务中心: 提供高级分析和数据服务:
-  AI中心:提供文本、图像和视频识别、自然语言处理和知识图谱服务。 
-  数据服务中心:提供指标、数据产品、搜索、沙箱等数据服务。 
(6)数据分析平台: 使用户能够执行各种数据分析:
-  统计分析、数据挖掘、多维分析和即时分析:提供一系列分析技术。 
-  运营分析与数据质量管理:关注业务绩效和数据完整性。 
-  标签库和用户画像:客户细分和分析的工具。 
-  元数据和主数据管理:管理有关数据和核心业务数据的数据。 
(7)数据处理平台: 处理数据转换和准备:
-  离线和实时数据处理:批量和流式处理数据。 
-  非结构化数据转换和数据统一调度:处理各种数据格式和协调数据工作流。 
-  机器分析和数据安全管理:利用机器学习并确保数据保护。 
(8)存储计算平台: 提供数据存储和处理的基础设施:
-  Hadoop、关系数据库、MPP数据库、内存数据库、图像/文件/时间序列/对象数据库:支持多样化的数据存储需求。 
-  数据生命周期管理:从创建到删除来管理数据。 
(9)数据收集平台: 从各种来源收集数据:
-  数据共享与交换、在线数据同步、实时数据同步、网络爬虫、数据目录:实现从不同系统获取数据。 
-  数据来源:包括业务系统、HR系统、QA系统、ERP系统、主数据、渠道系统、第三方QMS、财务系统、互联网数据、物联网数据、外部数据。 
(10)数据层(底部): 代表底层数据存储:
-  分布式文件系统和数据库:利用 MySQL、MongoDB、Redis 和 Hadoop 等技术。 
运行时环境: 指定技术基础设施:
-  私有云和公共云服务器、JVM、Docker 云平台:支持灵活的部署选项。 
扩展阅读
| 一.数据治理理论架构 | 一.数据治理理论架构-CSDN博客 | 
| 二.数据治理流程架构 | 二.数据治理流程架构-CSDN博客 | 
| 三、数据治理应用开发整体架构 | 三、数据治理应用开发整体架构-CSDN博客 | 
