当前位置: 首页 > news >正文

大数据-基础架构设施演进的过程

一、第一阶段-Hadoop

以Hadoop为代表的离线数据处理基础设施

 

1.1、围绕HDFS和MR,产生了一系列的组件

  • 面向在线KV操作的HBase
  • 面向SQL的Hive
  • 面向工作流的PIG

1.2、随着对批处理性能要求越来越高,产生了Tez、Spark、Flink等计算引擎。RM模型也逐步进化成DAG模型。

DAG模型

1、增加计算模型的抽象和并发能力

根据聚合操作把任务分为多个stage,每个stage由一个或者多个task组成,task可以并行执行,从而提供计算的并行能力

2、减少计算过程中的中间结果IO操作

为了减少处理过程中的中间结果写文件操作,spark、presto等计算引擎尽量使用计算节点的内存对数据进行缓存,从而提高整个计算过程中的数据效率和吞吐能力

二、第二阶段-lambda架构

批处理计算能力提升有限了还是无法满足需求,需要结合离线和实时才能解决问题。催生了,SparkStreaming、Flink的出现。最终“流批一体”出现了。

三、第三阶段-kapa架构

 

流批一体解决了问题,但是架构太复杂了,能不能用一套系统来跑就行了。流失处理天生的并发行和分布式特点,注定有更好的拓展性。通过流式计算提高并发行,加大流式计算的窗口。来统一批流程和流处理两种计算模式 

相关文章:

  • golang实现枚举
  • AWS中所有与数据科学有关的服务一览表(MLS-C01)
  • <爬虫部署,进阶Docker>----第二章 安装Docker
  • 几个不错的 Jupyter Notebook 云端展示平台
  • 基于springboot的牙科就诊管理系统
  • Lua | 一篇文章讲清Lua语法及热更新
  • dfs剪枝
  • Java类的多态作用及解析
  • 【设计模式】第二讲:单例模式
  • NoSQL
  • Vue+SpringBoot打造陕西非物质文化遗产网站
  • python练习3
  • 外包干了5天,技术退步明显。。。。
  • 第五篇:数字视频广告格式概述 - IAB视频广告标准《数字视频和有线电视广告格式指南》
  • 【题目】【网络系统管理】2019年全国职业技能大赛高职组计算机网络应用赛项H卷
  • 二十、软考-系统架构设计师笔记-真题解析-2020年真题
  • SAP HCM 0008信息类型间接评估与直接评估
  • 训练svm并部署树莓派
  • 【Flutter学习笔记】10.1 自定义组件方法简介
  • nginx相关内容的安装
  • 巴基斯坦称对印度发起军事行动
  • 中国天主教组织发贺电对新教皇当选表示祝贺
  • 国家发改委:目前有的核电项目民间资本参股比例已经达到20%
  • 甘怀真:天下是神域,不是全世界
  • 蓝佛安:中方将采取更加积极有为的宏观政策,有信心实现今年5%左右增长目标
  • 五一档观众最满意《水饺皇后》