当前位置: 首页 > news >正文

LakeHouse--湖仓一体架构

大家可能发现了,近些年湖仓一体数据架构被提及的频率越来越高。各家大厂也有湖仓一体架构的实践,也有很多公开分享。 那什么是湖仓一体?为什么出现了湖仓一体架构,换言之,它解决了以前数据仓库、数据湖+数仓两层架构所不能解决的什么问题?

本文会从数仓、数据湖依次介绍,最终介绍LakeHouse湖仓一体架构。

主要参考了CIDR 2021 上Databricks 发表的论文:《 Lakehouse: a new generation of open platforms that unify data warehousing and advanced analytics》。

paper下载地址:https://www.cidrdb.org/cidr2021/papers/cidr2021_paper17.pdf

一、背景

数据仓库的历史始于帮助企业领导者获取分析洞察,方法是将运营数据库中的数据收集到集中式仓库中,然后用于决策支持和商业智能(BI)。这些仓库中的数据将采用Schema-on-Write的的方式写入,从而确保数据模型针对下游 BI的使用进行了优化。我们称之为第一代数据分析平台。

这样的数据仓库在十多年前开始面临一些问题:

  • 1、这样的数仓将存储和计算资源绑定到同一个设备上,企业不得不为了峰值负载而预留一些资源,随着数据越来越多,这样做的成本也变得越来越昂贵。
  • 2、第一代数据仓库主要是针对结构化数据设计的,但是随着互联网的发展,出现了越来越多的半结构化或者非结构化数据,例如视频、音频、文档等,第一代分析平台没有办法很好地处理这样的数据。
http://www.dtcms.com/a/334950.html

相关文章:

  • 基于C++的词法分析器:使用正则表达式的实现
  • 【OpenGL】LearnOpenGL学习笔记10 - 平行光、点光源、聚光灯
  • Spring Cloud系列—Alibaba Seata分布式事务
  • Linux 文件删除后,df -h磁盘空间未更新
  • 安卓四大组件基础题
  • GPIO初始化及调用
  • Go语言指针与内存分配深度解析:从指针本质到 new、make 的底层实现
  • Spring三级缓存
  • 深入理解 Linux 线程:从概念到虚拟地址空间的全面解析
  • 机器学习的特征工程(特征构造、特征选择、特征转换和特征提取)详解
  • 028 动静态库 —— 动态库
  • 第3问 什么是数据指标?
  • 41 C++ STL模板库10-容器3-list
  • MATLAB R2010b系统环境(一)MATLAB简介
  • 云原生俱乐部-RH124知识点总结(3)
  • Dify实战应用指南(上传需求稿生成测试用例)
  • C/C++中的内存分区
  • Java8~Java21重要新特性
  • sharding-jdbc读写分离配置
  • “preinstall“: “npx only-allow pnpm“
  • C#多线程并发安全队列ConcurrentQueue
  • 防火墙虚拟系统配置实验
  • 自然语言处理——02 文本预处理(上)
  • B*算法深度解析:动态避障路径规划的革命性方法
  • AI安全增强核心技术:提示词防火墙、置信度过滤与知识蒸馏防御
  • 2-3〔O҉S҉C҉P҉ ◈ 研记〕❘ 漏洞扫描▸AppScan(WEB扫描)
  • XC6SLX45T-2FGG484C Xilinx AMD Spartan-6 FPGA
  • 16-集合的Stream编程
  • 基于STM32的智能书房系统设计与实现
  • BitLocker解密