当前位置: 首页 > news >正文

贴源数据层建设

引入

实现数据价值的前提是构建高质量的数据体系,其中核心正是我们在数仓架构设计里面我们提到,从“采”,“建”,“管”,“用”四个模块去构建数仓,其对应的数仓分层如下:

  • 采(贴源数据层)
  • 建➕管(公共数仓层)
  • 用(应用数据层)

要构建数据体系的前提,自然是有足够的可用数据,同时,通过上一篇的内容,我们知道构建企业级数据中台的核心痛点之一就是数据孤岛问题,而贴源数据层的核心功能,就是将各业务系统分散的数据采集、汇聚到一个统一的平台,也就是从物理上打破了数据孤岛。

下面我们就深入去看看它具体涉及哪些内容。

数据采集

随着传统互联网、移动互联网、物联网等技术的兴起,企业的业务形态开始多元化,业务主体类型也越来越丰富。除了从业务库获取数据以外,还能通过埋点、爬虫、日志、填报的方式来收集各类数据。从空间维度来看,其主要可以分为线上和线下两类。采集这两类行为所产生的数据的方法是不一样的,而且方法也在随着技术的演进不断发展变化。

1.线上采集

线上的主要载体可以分为传统互联网和移动互联网两种,对应的形态有PC系统、PC网页、H5、微信小程序、App、智能可穿戴设备、物联网传感设备等。

在技术上,数据采集主要有客户端埋点和服务端埋点两种方式。其中客户端埋点主要通过在终端设备内嵌入埋点功能模块,通过模块提供的能力采集客户端的用户行为,并上传回行为采集服务端。

客户端埋点

常见的客户端埋点方式有3种:全埋点、可视化埋点和代码埋点。

  • 全埋点:将终端设备上用户的所有操作和内容都记录并保存下来,只需要对内嵌SDK做一些初始配置就可以达到收集全部行为的目的。这也经常被称为无痕埋点、无埋点等。
    全埋点适合于终端设计标准化且有统一系统接口的情形。它利用系统提供的事件捕获机制,在对象事件发生时调用埋点工具中的指定处理逻辑,对该事件相关的信息进行记录。这种方法的优点是不用频繁升级,在一次性验证并发布后,就可以获取终端的全量行为数据。当突然发现需要对某个对象进行分析时,可以直接从历史数据中找到所需的数据,而不需要再次进行数据收集。其缺点是数据存储、传输的成本较高,有些当

相关文章:

  • NameError: name ‘libpaddle‘ is not defined
  • MAX232数据手册:搭建电平转换桥梁,助力串口稳定通信
  • 学到什么记什么(25.3.3)
  • 深入学习Linux内存管理-缺页异常
  • MySQL数据库的数据类型
  • 刷题日记——部分二分算法题目分享
  • C++学习之C++初识、C++对C语言增强、对C语言扩展
  • 批量设置 Word 样式,如字体信息、段落距离、行距、页边距等信息
  • MOE(Mixture of Experts)门控网络的实现与优化
  • pywin32连接到WMI接口获取指定名称程序路径
  • 【Java数据结构】哈希表
  • 【DOM 型 XSS举例】
  • 开放鸿蒙认证,OpenHarmony兼容性认证介绍
  • 2025统计建模大赛选题参考?
  • 算法系列之数据结构-二叉树
  • Blueprint —— Flow Control
  • C#中泛型的协变和逆变
  • 机器学习之集成学习思维导图
  • 【人工智能】Python中的迁移学习:使用预训练模型进行分类任务
  • 【前端】CSS 备忘清单(超级详细!)
  • 浙江省建设投资集团有限公司网站/江门关键词优化公司
  • 新疆建设云网站/寻找客户资源的网站
  • wordpress多站点sitemap/长春网站建设设计
  • 怎么做网站动态框/友情链接的方式如何选择
  • 注册公司登陆哪个网站/天津百度爱采购
  • 批发网站大全/seo网站推广案例