当前位置: 首页 > news >正文

贴源数据层建设

引入

实现数据价值的前提是构建高质量的数据体系,其中核心正是我们在数仓架构设计里面我们提到,从“采”,“建”,“管”,“用”四个模块去构建数仓,其对应的数仓分层如下:

  • 采(贴源数据层)
  • 建➕管(公共数仓层)
  • 用(应用数据层)

要构建数据体系的前提,自然是有足够的可用数据,同时,通过上一篇的内容,我们知道构建企业级数据中台的核心痛点之一就是数据孤岛问题,而贴源数据层的核心功能,就是将各业务系统分散的数据采集、汇聚到一个统一的平台,也就是从物理上打破了数据孤岛。

下面我们就深入去看看它具体涉及哪些内容。

数据采集

随着传统互联网、移动互联网、物联网等技术的兴起,企业的业务形态开始多元化,业务主体类型也越来越丰富。除了从业务库获取数据以外,还能通过埋点、爬虫、日志、填报的方式来收集各类数据。从空间维度来看,其主要可以分为线上和线下两类。采集这两类行为所产生的数据的方法是不一样的,而且方法也在随着技术的演进不断发展变化。

1.线上采集

线上的主要载体可以分为传统互联网和移动互联网两种,对应的形态有PC系统、PC网页、H5、微信小程序、App、智能可穿戴设备、物联网传感设备等。

在技术上,数据采集主要有客户端埋点和服务端埋点两种方式。其中客户端埋点主要通过在终端设备内嵌入埋点功能模块,通过模块提供的能力采集客户端的用户行为,并上传回行为采集服务端。

客户端埋点

常见的客户端埋点方式有3种:全埋点、可视化埋点和代码埋点。

  • 全埋点:将终端设备上用户的所有操作和内容都记录并保存下来,只需要对内嵌SDK做一些初始配置就可以达到收集全部行为的目的。这也经常被称为无痕埋点、无埋点等。
    全埋点适合于终端设计标准化且有统一系统接口的情形。它利用系统提供的事件捕获机制,在对象事件发生时调用埋点工具中的指定处理逻辑,对该事件相关的信息进行记录。这种方法的优点是不用频繁升级,在一次性验证并发布后,就可以获取终端的全量行为数据。当突然发现需要对某个对象进行分析时,可以直接从历史数据中找到所需的数据,而不需要再次进行数据收集。其缺点是数据存储、传输的成本较高,有些当

相关文章:

  • NameError: name ‘libpaddle‘ is not defined
  • MAX232数据手册:搭建电平转换桥梁,助力串口稳定通信
  • 学到什么记什么(25.3.3)
  • 深入学习Linux内存管理-缺页异常
  • MySQL数据库的数据类型
  • 刷题日记——部分二分算法题目分享
  • C++学习之C++初识、C++对C语言增强、对C语言扩展
  • 批量设置 Word 样式,如字体信息、段落距离、行距、页边距等信息
  • MOE(Mixture of Experts)门控网络的实现与优化
  • pywin32连接到WMI接口获取指定名称程序路径
  • 【Java数据结构】哈希表
  • 【DOM 型 XSS举例】
  • 开放鸿蒙认证,OpenHarmony兼容性认证介绍
  • 2025统计建模大赛选题参考?
  • 算法系列之数据结构-二叉树
  • Blueprint —— Flow Control
  • C#中泛型的协变和逆变
  • 机器学习之集成学习思维导图
  • 【人工智能】Python中的迁移学习:使用预训练模型进行分类任务
  • 【前端】CSS 备忘清单(超级详细!)
  • 为治理商家“卷款跑路”“退卡难”,预付式消费司法解释5月起实施
  • 马上评丨准入壁垒越少,市场活力越足
  • TCL科技一季度净利增超三倍,去年半导体显示业务营收创新高
  • “即买即退”扩容提质,上海静安推出离境退税2.0版新政
  • 秦洪看盘|上市公司业绩“排雷”近尾声,A股下行压力趋缓
  • 2025上海车展 | 当智驾不再让人兴奋,汽车智能化暗战升级