当前位置：首页 > news >正文

贴源数据层建设

news 2025/10/17 10:06:27

引入

实现数据价值的前提是构建高质量的数据体系，其中核心正是我们在数仓架构设计里面我们提到，从“采”，“建”，“管”，“用”四个模块去构建数仓，其对应的数仓分层如下：

采（贴源数据层）
建➕管（公共数仓层）
用（应用数据层）

要构建数据体系的前提，自然是有足够的可用数据，同时，通过上一篇的内容，我们知道构建企业级数据中台的核心痛点之一就是数据孤岛问题，而贴源数据层的核心功能，就是将各业务系统分散的数据采集、汇聚到一个统一的平台，也就是从物理上打破了数据孤岛。

下面我们就深入去看看它具体涉及哪些内容。

数据采集

随着传统互联网、移动互联网、物联网等技术的兴起，企业的业务形态开始多元化，业务主体类型也越来越丰富。除了从业务库获取数据以外，还能通过埋点、爬虫、日志、填报的方式来收集各类数据。从空间维度来看，其主要可以分为线上和线下两类。采集这两类行为所产生的数据的方法是不一样的，而且方法也在随着技术的演进不断发展变化。

1.线上采集

线上的主要载体可以分为传统互联网和移动互联网两种，对应的形态有PC系统、PC网页、H5、微信小程序、App、智能可穿戴设备、物联网传感设备等。

在技术上，数据采集主要有客户端埋点和服务端埋点两种方式。其中客户端埋点主要通过在终端设备内嵌入埋点功能模块，通过模块提供的能力采集客户端的用户行为，并上传回行为采集服务端。

客户端埋点

常见的客户端埋点方式有3种：全埋点、可视化埋点和代码埋点。

全埋点：将终端设备上用户的所有操作和内容都记录并保存下来，只需要对内嵌SDK做一些初始配置就可以达到收集全部行为的目的。这也经常被称为无痕埋点、无埋点等。
全埋点适合于终端设计标准化且有统一系统接口的情形。它利用系统提供的事件捕获机制，在对象事件发生时调用埋点工具中的指定处理逻辑，对该事件相关的信息进行记录。这种方法的优点是不用频繁升级，在一次性验证并发布后，就可以获取终端的全量行为数据。当突然发现需要对某个对象进行分析时，可以直接从历史数据中找到所需的数据，而不需要再次进行数据收集。其缺点是数据存储、传输的成本较高，有些当

查看全文

http://www.dtcms.com/a/48285.html