当前位置: 首页 > news >正文

Apache Hudi 性能测试报告

一、测试背景

数据湖作为一个集中化的数据存储仓库,支持结构化、半结构化以及非结构化等多种数据格式,数据来源包含数据库数据、增量数据、日志数据以及数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据集中存储和管理在高性价比的分布式存储系统中,对外提供统一的数据目录,支持多种计算分析方式,有效解决企业面临的数据孤岛问题,降低存储和使用数据的成本。

Apache Hudi(音:Hoodie)是数据湖的一个开源组件,能够摄入(Ingest)和管理(Manage)基于 HDFS 之上的大型分析数据集,支持通过 Spark 和 Flink 构建一体化数据湖解决方案。Hudi 设计的主要目的是为了高效地减少摄取过程中的数据延迟,除了经典的批处理外,Hudi 还提供插入更新(改变数据集)、增量拉取(获取变更数据)等流处理原语,可以通过细粒度的文件/记录级别索引方式来支持写操作的事务保证,获取最新快照结果,由此解锁基于 HDFS 抽象的流/增量数据处理能力,解决 HDFS 的可伸缩性限制问题,提供快速的 ETL、建模和数据呈现。Hudi 填补了在 HDFS 上处理数据的巨大空白,可以与大数据技术很好地共存。

本文档基于 Kafka 数据源,采用 Flink 作为计算载体,以 HDFS 作为底层存储组

http://www.dtcms.com/a/62104.html

相关文章:

  • MVCC的理解(Multi-Version Concurrency Control,多版本并发控制)
  • 蓝桥杯备考:排队顺序(链表)
  • Spring Boot 整合 Redis
  • Python数据分析之数据可视化
  • 数据结构——堆
  • 使用异或完成两个整数的交换
  • 如何使用 CSS 实现黑色遮罩效果
  • VMware安装Windows server 2016
  • 使用const声明常量】
  • 如何为项目选择合适的EMI滤波器——共模与差模干扰分析
  • 【菜鸟飞】Conda安装部署与vscode的结合使用
  • 第27周JavaSpringboot电商进阶开发 1.企业级用户验证
  • C++手动实现一个线性探测法HashMap
  • 如何使用Opentelemetry+jaeger对Go与Java项目实现分布式链路追踪
  • Filezilla快速搭建与linux虚拟机通讯
  • YOLO结合bytetrack对车辆目标跟踪计数
  • vue项目搭建
  • liunx磁盘挂载和jar启动命令
  • 保姆级别使用Python实现“机器学习“案例
  • 利用OpenResty拦截SQL注入
  • FTL算法
  • IP核实战:用Xilinx Clocking Wizard实现精密时序控制
  • 宿主机运行pyspark任务读取docker hadoop容器上的数据
  • 0基础 | 看懂原理图Datasheet 系列1
  • 前端状态管理 pinia和vuex高频面试题
  • 通过动态获取后端数据判断输入的值打小
  • 【C语言】 一维数组传参的本质
  • 车间图纸安全传输需要注意什么?
  • iTextSharp-PDF批量导出
  • 深入浅出Bearer Token:解析工作原理及其在Vue、Uni-app与Java中的实现Demo