当前位置: 首页 > news >正文

湖仓一体化及冷、热、实时三级存储

一、湖仓一体化(Lakehouse)

湖仓一体化(Lakehouse)是数据湖(Data Lake)与数据仓库(Data Warehouse)的结合,旨在解决传统数据架构中数据孤岛、存储冗余、计算性能不足等问题。其核心思想是兼顾数据湖的存储灵活性和数据仓库的管理与计算能力,使得结构化、半结构化、非结构化数据能够在同一存储系统中高效管理和分析。

二、为什么需要湖仓一体?

  1. 数据湖的缺陷

    • 缺乏强Schema,查询复杂,性能较低
    • 数据治理能力较弱,数据质量参差不齐
  2. 数据仓库的缺陷

    • 存储成本高,不能存储大量的原始数据
    • 主要适用于结构化数据,不适合处理非结构化数据
  3. 湖仓一体的优势

    • 既能存储原始数据(像数据湖一样),又能提供高性能查询(像数据仓库一样)
    • 降低数据存储成本,避免数据重复存储
    • 支持大规模数据分析与AI场景(如机器学习、流式计算)
  4. 对比传统模式

  5. 传统的数据架构通常分为**数据湖(Data Lake)数据仓库(Data Warehouse)**两种模式,但它们各有优缺点:

    架构优点缺点
    数据湖(Data Lake)能存储结构化、半结构化、非结构化数据;存储成本低数据治理能力弱,查询性能差
    数据仓库(Data Warehouse)查询性能高,数据质量高,支持 BI 和决策分析存储成本高,不适合存放原始数据

三、湖仓一体的核心架构

湖仓一体的核心目标是在对象存储(如 S3、HDFS)上提供类似数据仓库的能力。其架构一般包括以下部分:

  1. 存储层(对象存储)

    • 使用**对象存储(S3、OSS、HDFS)**作为统一存储层。
    • 采用Parquet、ORC等高效存储格式,支持冷热存储分层。
  2. 数据管理层(表格式 & 元数据管理)

    • 采用事务表格式(Delta Lake、Apache Iceberg、Apache Hudi),提供ACID 事务、Schema 演进能力。
    • 结合元数据管理(Hive Metastore、Glue、Unity Catalog),支持SQL查询。
  3. 计算引擎(Lakehouse Query Engine)

    • 计算框架:Spark、Flink、Presto、Trino、Dremio 等。
    • 可直接查询数据湖中的文件,无需数据迁移到数据仓库。
  4. 数据消费层(BI & AI)

    • BI 分析:Power BI、Tableau、Superset
    • AI/ML 训练:Spark ML、TensorFlow、PyTorch
    • 流式计算:Flink、Kafka Streams

四、湖仓一体的关键技术

        数据存储格式

湖仓一体通常使用以下列式存储格式

  • Parquet(默认,适用于大数据查询)
  • ORC(Hive & Spark 生态)
  • Delta Lake(Databricks 提出,支持 ACID 事务)
  • Iceberg(Netflix 提出,适用于大规模数据管理)
  • Hudi(Uber 提出,适用于实时数据更新)

         事务表格式

  • Delta Lake(Databricks):最流行的 Lakehouse 方案,支持 ACID 事务、时间旅行(Time Travel)。
  • Apache Iceberg(Netflix):高扩展性,适用于云端数据湖。
  • Apache Hudi(Uber):擅长处理流数据(Change Data Capture, CDC)。

        计算引擎

  • 离线计算:Spark、Hive、Presto、Trino
  • 实时计算:Flink、Kafka Streams
  • OLAP 查询:ClickHouse、Doris

五、湖仓一体的冷热存储

冷热存储

湖仓一体通常采用冷、热、实时三级存储策略,降低存储成本并优化查询性能:

存储类型适用数据主要存储介质查询性能存储成本典型应用
实时存储最新数据(秒级)Kafka、Hudi、Flink极快实时数据分析、风控
热数据存储近期高频访问数据(小时~天级)Delta Lake、Iceberg中等交互式查询、近实时分析
冷数据存储归档数据(周~月级)S3、HDFS、OSS历史数据分析、模型训练

数据分层存储的关键点

  • 冷热数据划分策略:例如最近 30 天数据存放在热存储,半年以上的数据存入冷存储
  • 冷热数据访问方式
    • 热数据:直接查询(高性能)
    • 冷数据:按需加载,减少存储开销

湖仓一体 vs 传统数据仓库

对比项传统数据仓库湖仓一体
存储成本高(需要计算+存储)低(使用对象存储)
数据类型结构化数据结构化+半结构化+非结构化
事务支持强(ACID 事务)支持 ACID(Delta、Iceberg)
查询性能高(优化的 OLAP 引擎)高(基于 Parquet + 索引优化)
扩展性有限(存算一体)高(存算分离)
实时分析依赖数据导入支持流式数据

六、未来趋势

  • 数据湖+数据仓库深度融合(Lakehouse 逐渐成为标准架构)
  • ACID 事务表格式(Delta/Iceberg/Hudi)成为主流
  • 存算分离架构,结合 Serverless 计算
  • AI/ML 直接在 Lakehouse 上训练数据模型

        湖仓一体化(Lakehouse)是大数据架构的演进方向,结合了数据湖的存储优势和数据仓库的查询能力,同时支持冷热分层存储、ACID 事务、实时数据分析。它解决了传统数据湖和数据仓库的缺陷,成为现代数据架构的主流选择

相关文章:

  • Django 5实用指南(十二)异步处理与Celery集成
  • 【YOLOv12改进trick】多尺度大核注意力机制MLKA模块引入YOLOv12,实现多尺度目标检测涨点,含创新点Python代码,方便发论文
  • GCC RISCV 后端 -- GCC Passes 注释
  • 关于sqlalchemy的使用
  • 基于hive的电信离线用户的行为分析系统
  • 第9章:数据导入导出与设置
  • C语言共用体(union)
  • 【DeepSeek】5分钟快速实现本地化部署教程
  • SQL分几种
  • C语言——自定义类型:结构体
  • 实际springboot项目中如何注意jvm调优
  • 引领变革!北京蜂巢世纪科技有限公司荣获“GAS消费电子科创奖-产品创新奖”!
  • SQL PLUS与Oracle数据库的交互
  • 设计模式 - 工厂模式 精准梳理精准记忆
  • Android12 添加开机铃声
  • 【NL2SQL(text2sql) 到底准不准】智能BI中生成sql模块的评测数据构造 + 评测办法
  • 在 ASP.NET Core 中启用 Brotli 和 Gzip 响应压缩
  • SpringBoot的启动流程是怎样的?
  • 全志A133 android10 mipi屏幕调试
  • Git - 补充工作中常用的一些命令
  • 从化网站建设优化/百度云资源搜索引擎
  • 网站建设企业排名推广/从哪里找网络推广公司
  • 视频推广联盟/搜索引擎优化论文3000字
  • 做网站为什么要去工厂/网络服务提供商
  • 怎么免费给网站做收录/seo网站首页推广
  • 网站搜索功能怎样做/找代写文章写手