当前位置: 首页 > news >正文

大数据-基础架构设施演进的过程

一、第一阶段-Hadoop

以Hadoop为代表的离线数据处理基础设施

 

1.1、围绕HDFS和MR,产生了一系列的组件

  • 面向在线KV操作的HBase
  • 面向SQL的Hive
  • 面向工作流的PIG

1.2、随着对批处理性能要求越来越高,产生了Tez、Spark、Flink等计算引擎。RM模型也逐步进化成DAG模型。

DAG模型

1、增加计算模型的抽象和并发能力

根据聚合操作把任务分为多个stage,每个stage由一个或者多个task组成,task可以并行执行,从而提供计算的并行能力

2、减少计算过程中的中间结果IO操作

为了减少处理过程中的中间结果写文件操作,spark、presto等计算引擎尽量使用计算节点的内存对数据进行缓存,从而提高整个计算过程中的数据效率和吞吐能力

二、第二阶段-lambda架构

批处理计算能力提升有限了还是无法满足需求,需要结合离线和实时才能解决问题。催生了,SparkStreaming、Flink的出现。最终“流批一体”出现了。

三、第三阶段-kapa架构

 

流批一体解决了问题,但是架构太复杂了,能不能用一套系统来跑就行了。流失处理天生的并发行和分布式特点,注定有更好的拓展性。通过流式计算提高并发行,加大流式计算的窗口。来统一批流程和流处理两种计算模式 

http://www.dtcms.com/a/9484.html

相关文章:

  • golang实现枚举
  • AWS中所有与数据科学有关的服务一览表(MLS-C01)
  • <爬虫部署,进阶Docker>----第二章 安装Docker
  • 几个不错的 Jupyter Notebook 云端展示平台
  • 基于springboot的牙科就诊管理系统
  • Lua | 一篇文章讲清Lua语法及热更新
  • dfs剪枝
  • Java类的多态作用及解析
  • 【设计模式】第二讲:单例模式
  • NoSQL
  • Vue+SpringBoot打造陕西非物质文化遗产网站
  • python练习3
  • 外包干了5天,技术退步明显。。。。
  • 第五篇:数字视频广告格式概述 - IAB视频广告标准《数字视频和有线电视广告格式指南》
  • 【题目】【网络系统管理】2019年全国职业技能大赛高职组计算机网络应用赛项H卷
  • 二十、软考-系统架构设计师笔记-真题解析-2020年真题
  • SAP HCM 0008信息类型间接评估与直接评估
  • 训练svm并部署树莓派
  • 【Flutter学习笔记】10.1 自定义组件方法简介
  • nginx相关内容的安装
  • 【UE5】动画蒙太奇简述
  • python共享单车信息系统的设计与实现flask-django-php-nodejs
  • 【爬虫】web自动化和接口自动化
  • [嵌入式系统-39]:龙芯1B 开发学习套件 -9-PMON的文件结构
  • 大模型主流微调训练方法总结 LoRA、Adapter、Prefix-tuning、P-tuning、Prompt-tuning 并训练自己的数据集
  • 代码+视频,R语言使用BOOT重抽样获取cox回归方程C-index(C指数)可信区间
  • 贝尔曼方程【Bellman Equation】
  • 使用 ZipArchiveInputStream 读取压缩包内文件总数
  • RuoYi-Vue开源项目2-前端登录验证码生成过程分析
  • 记录一次服务器内存使用率过高达到90%告警问题排查。