大数据开发实战:如何做企业级的数据服务产品
1.背景
数据服务通常以解决方案的形式进行组织,面向一个应用场景的所有数据需求或数据内容可以通过一个解决方案进行封装,统一对外服务。一个数据需求或数据接口以一个数据服务实例的形式存在于解决方案之下。
下游消费方可以通过统一API进行数据消费,通过传入解决方案code+数据服务code来获取指定的数据内容及数据服务能力进行消费。
2.啥是数据服务
具体是指单纯提供数据消费接口的数据集服务(接口)、提供实时多维度计算的动态计算服务(OLAP)、提供归因分析的归因分析服务、提供数据规则进行问题抓取预警的规则预警服务。
数据服务定位
-
更快的服务:研发提效工具,通过产品化手段实现从数据表到服务化接口全链路的快速配置化
-
更有价值的服务:数据的增量价值体现,通过数据+增值能力,为业务经营分析提供更多增量的数据化赋能
数据服务方案
整体技术架构
3.数据服务配置
3.1 前置检验
数据服务支持对ODPS、HOLO两种数据源进行服务封装,在使用数据表时需要对数据表做一些前置检查。
ODPS 数据源
分区设置:月:ds = yyyymm 天:ds = yyymmdd 小时:ds = yyyymmddhh
主键设置:
-
数据表需要在数据地图完成主键标识,以明确最终对外服务的数据服务接口数据主键。
-
确保主键数据不重复,主键若重复,数据服务调度时会报错失败,并导致前后修改链路较长。
HOLO 数据源:HOLO数据可直接进行服务化封装。
3.2 创建一个解决方案
方案基本信息
资产录入
-
资产录入是将一个解决方案所需要的数据表统一进行元数据管理,通过录入完成数据表的指标化。以方便后续的服务配置。
-
点击新增,打开一个录入页面,选择对应的表类型及表名,查询后即可获取该表相关得元数据信息,在录入页面进行维度、指标的制定后,确认提交,即完成该表的元数据注册。
注意:所有表中字段均需进行标识该字段为维度或指标。主键字段默认置为维度不可修改。
holo表录入需要完整录入 instance.project.table 三段信息。
完成基本信息填写及资产录入后,即可开始具体的数据服务配置。
4.数据服务实例配置
数据服务能力分为:数据集服务、动态计算服务、规则预警服务、归因分析服务。
4.1 数据集服务
应用场景
单纯对一张二维数据表中的字段内容对外进行服务化接口形式输出,方便对接工程系统或可视化搭建工具场景。
服务实例配置
新增服务
注意:服务code必须小写
业务模型设置
批量导入
数据服务支持基于表的服务,对于已经注册的表,可以直接导入具体数据表,进行批量的业务模型设置。
数据应用设置
数据应用用以设定底层数据服务的一些调度信息,配置项说明如下:
-
更新周期,所使用的的数据源表更新周期,即ODPS表的分区信息,小时分区、天分区、月分区
-
消费方式,可视化展示:数据存储720天;工程系统调用:数据存储1天
-
选择服务,选择数据同步的具体HOLO库,目前选择ASCP公共HOLO库即可。
-
点击开始调度,生成正式的调度任务,调度任务自动挂依赖,基于数据源表的执行时间进行同步。
-
开始调试支持在线简单调试查看数据接口是否正常产出数据。
-
查看接口文档,可获取相应的接口使用说明。
4.2 动态计算服务
应用场景:用于有一定指标定义加工的需求场景或在可视化页面需要进行多维分析的场景,支持定义动态计算指标(加减乘除、MTD/YTD、自定义sql 等),指定维度进行汇总(求和、求平均、求最大值、求最小值、计数)。
支持两种场景:
1)多维度的上卷下钻,常用于可视化应用。
2)动态衍生指标的计算,不涉及维度的变化。
服务实例配置
新增服务
注意:服务code必须小写
业务模型设置
业务模型用来定义服务化接口的具体数据内容结构,分为维度和指标。
4.2.1 基础信息配置
批量导入:数据服务支持基于表的服务,可以直接导入具体数据表,进行批量的业务模型设置。
4.2.2 动态计算指标配置
动态计算是基于配置好的基础指标进行运算配置,基于消费方实时调用,实时计算产出结果。因此需要配置动态计算指标的计算规则和进行多维汇总时的聚合规则。
计算规则:需要新增一个动态计算指标时,可进行新指标添加配置。
聚合规则:进行多维分析时高维上卷需要对数据做聚合,此处需要选择数据的聚合方式,配置的基础指标都需要选 择聚合方式,衍生指标的聚合方式首先要确定是先计算后指标值再进行聚合,还是将因子指标聚合后再进行计算。若是先计算再聚合,则需要选择衍生指标的聚合方式,若是先聚合再计算,则不需要选择聚合方式。
数据应用设置
数据应用用以设定底层数据服务的一些调度信息,配置项说明如下:
-
更新周期,所使用的的数据源表更新周期,即ODPS表的分区信息,小时分区、天分区、月分区
-
消费方式,可视化展示:数据存储720个分区;工程系统调用:数据存储1个分区
-
选择服务,选择数据同步的具体HOLO库,目前选择ASCP公共HOLO库即可。
-
点击开始调度,生成正式的调度任务,调度任务自动挂依赖,基于数据源表的执行时间进行同步。
-
开始调试支持在线简单调试查看数据接口是否正常产出数据。
4.3 规则预警服务
应用场景:用于基于一定的数据规则,抓取问题数据做可视化展示或生产系统应用,同时支持对相关责任人进行钉钉/邮件通知预警。如:当缺货率大于5%时,钉钉通知相关库控小二,并提供缺货明细进行可视化展示。服务实例配置
新增服务
注意:服务code必须小写
业务模型设置
业务模型用来定义服务化接口的具体数据内容结构,分为维度和指标。
4.3.1 基础信息配置
批量导入:数据服务支持基于表的服务,对于已经注册的表,若要进行整表的服务化,可以直接导入具体数据表,进行批量的业务模型设置。
4.3.2 预警规则配置
预警规则支持简单规则配置,如某个指标或维度同指定的指标或维度做对比;也支持高级公式编辑,点击编辑公式按钮,会提供公式编辑器进行高级公式的编辑。
配置完相关规则后,需要设置规则之间的逻辑关系,支持或、且逻辑和简单的规则嵌套。
注意:规则嵌套尽量一层,过于复杂的嵌套逻辑会导致不可知的错误。
预警文案,作为可选项,若需要对指定人进行消息预警推送时设置即可。若仅做问题数据抓取,则此项可忽略。
数据应用设置
数据应用用以设定底层数据服务的一些调度信息及预警信息推送配置,配置项说明如下:
-
推送消息设定:支持设定多条推送消息及不同推送方式,同一消息推送支持推送多人。
-
更新周期,所使用的的数据源表更新周期,即ODPS表的分区信息,小时分区、天分区、月分区
-
消费方式,数据可视化,提供HSF接口对于规则命中的结果数据进行查询。
-
离线分析,提供ODPS数据表对于规则命中的数据结果进行离线分析。
-
选择服务,选择数据同步的具体HOLO库,目前选择ASCP公共HOLO库即可。
-
点击开始调度,生成正式的调度任务,调度任务自动挂依赖,基于数据源表的执行时间进行同步。
-
开始调试支持在线简单调试查看数据接口是否正产产出数据。
注意:每次进行相关数据内容或规则内容更新后,需要重新调度方可生效。
4.4归因分析服务
新增服务
注意:服务code必须小写
业务模型设置
业务模型用来定义服务化接口的具体数据内容结构,分为维度和指标。
基础信息配置
批量导入:数据服务支持基于表的服务,可以直接导入具体数据表,进行批量的业务模型设置。
归因模型配置
设置对比维度:【注意】维度配置必须包含主键,or 维度组合后可以确定唯一行;下钻维度的表中,下钻后也是同样要求以下图为例,日期,kpi类型,商业code,组合维度,统计类型,在表中可以确定唯一一行
配置指标拆解关系
1)选取需要归因分析的指标
2)选取拆解关系
3)增加拆解逻辑下的指标
4)设置归因对比维度
【注意】对比维度必须配置在维度中
数据应用
在线调试
真实生成后样式
结果预览
往期推荐
FlinkCDC-Hudi数据实时入湖原理篇
深度剖析阿里巴巴 OneData 体系:数据驱动业务的基石
小心踩坑!Hive SQL中这些易错点你必须知道
Apache Doris 在数据仓库中的作用与应用实践
面试加分秘籍:校招数据倾斜场景下的SQL优化方案
Kafka Streams 和 Apache Flink 的无状态流处理与有状态流处理
一文带你吃透大厂高频面试题:行转列&列转行问题
轻松拿下SQL校招&社招面试,这些知识点你一定要会!
带你玩转 Flink TumblingWindow:从理论到代码的深度探索
26届秋招收割offer指南
一文吃透!Doris 冷热分层技术全解析
海量数据存储与分析:HBase vs ClickHouse vs Doris 三大数据库优劣对比指南
HBase协处理器深度解析:原理、实现与最佳实践
一文弄懂离线数仓中小文件问题
数据质量问题中,数据及时性怎么保证?如何有深度体系化回答!
数据清洗到底在清洗什么?
更多上岸信息请参考:
涤生学员就业情况
为什么选择涤生大数据?
-
1.跟随行业专家学习:我们的导师不是传统的讲师,而是实际的行业专家。他们都是来自国内一线大厂的资深开发,大数据技术专家等。
2.跟企业在职开发一起学习:涤生的社招学员目前60%+是企业在职进阶学员,基本各大厂的进阶学员都有,他们的薪资从10k,15k,20k,25k,30k,35k,40k。所以你会跟很多企业在职人员一起交流学习
-
3.定制化课程设计:结合每位学员的进行定制化教学,学习规划,让你的学习更有重点;结合每个学员的时间规划学习进度,督促考核,让学习变得更加灵活。
-
4.专业教学和平台:术业有专攻,企业怎么用,面试怎么面,我们就怎么学,涤生让大数据学习不迷惘。目前涤生采购10台服务器,自研提供一站式大数据平台供学习使用,拒绝虚拟机。
-
5.专业的简历面试辅导:涤生内部所有同学简历面试辅导都包含在内,从学习到入职试用期全流程提供保障服务。2024年截止当前涤生到简历面试7级群的学员就业率98%+,2024年上岸200+同学,60+入职一线中大厂。当然也有不少培训找不到工作的同学,以及裁员的同学,空窗期太久,最终跟着我们搞顺利上岸
-
6.不错的口碑:在涤生这,只要你不摆烂,我们不抛弃不放弃。目前涤生的学员大概有25%是老学员推荐和转化。
-
7.专门的校招大数据:校招跟社招不一样。全网独家的校招大数据课程,专门的校招团队辅导,今年是第五届校招大数据,内部校招面试资料覆盖一线中大厂90%的面试。从校招规划+系统的大数据课程+实习面试辅导+简历面试辅导+实习期辅导+试用期辅导,一次收费一条龙全流程贯穿。2024春招+2025年春招累计50+同学拿到一线中大厂offer