当前位置：首页 > news >正文

大数据-基础架构设施演进的过程

news 2025/10/15 3:25:30

一、第一阶段-Hadoop

以Hadoop为代表的离线数据处理基础设施

1.1、围绕HDFS和MR，产生了一系列的组件

面向在线KV操作的HBase
面向SQL的Hive
面向工作流的PIG

1.2、随着对批处理性能要求越来越高，产生了Tez、Spark、Flink等计算引擎。RM模型也逐步进化成DAG模型。

DAG模型

1、增加计算模型的抽象和并发能力

根据聚合操作把任务分为多个stage，每个stage由一个或者多个task组成，task可以并行执行，从而提供计算的并行能力

2、减少计算过程中的中间结果IO操作

为了减少处理过程中的中间结果写文件操作，spark、presto等计算引擎尽量使用计算节点的内存对数据进行缓存，从而提高整个计算过程中的数据效率和吞吐能力

二、第二阶段-lambda架构

批处理计算能力提升有限了还是无法满足需求，需要结合离线和实时才能解决问题。催生了，SparkStreaming、Flink的出现。最终“流批一体”出现了。

三、第三阶段-kapa架构

流批一体解决了问题，但是架构太复杂了，能不能用一套系统来跑就行了。流失处理天生的并发行和分布式特点，注定有更好的拓展性。通过流式计算提高并发行，加大流式计算的窗口。来统一批流程和流处理两种计算模式

查看全文

http://www.dtcms.com/a/9484.html

golang实现枚举

AWS中所有与数据科学有关的服务一览表（MLS-C01）

＜爬虫部署,进阶Docker＞----第二章安装Docker

几个不错的 Jupyter Notebook 云端展示平台

基于springboot的牙科就诊管理系统

Lua | 一篇文章讲清Lua语法及热更新

dfs剪枝

Java类的多态作用及解析

【设计模式】第二讲：单例模式

NoSQL

Vue+SpringBoot打造陕西非物质文化遗产网站

python练习3

外包干了5天，技术退步明显。。。。

第五篇：数字视频广告格式概述 - IAB视频广告标准《数字视频和有线电视广告格式指南》

【题目】【网络系统管理】2019年全国职业技能大赛高职组计算机网络应用赛项H卷

二十、软考-系统架构设计师笔记-真题解析-2020年真题

SAP HCM 0008信息类型间接评估与直接评估

训练svm并部署树莓派

【Flutter学习笔记】10.1 自定义组件方法简介

nginx相关内容的安装

【UE5】动画蒙太奇简述

python共享单车信息系统的设计与实现flask-django-php-nodejs

【爬虫】web自动化和接口自动化

[嵌入式系统-39]：龙芯1B 开发学习套件 -9-PMON的文件结构

大模型主流微调训练方法总结 LoRA、Adapter、Prefix-tuning、P-tuning、Prompt-tuning 并训练自己的数据集

代码+视频，R语言使用BOOT重抽样获取cox回归方程C-index（C指数）可信区间

贝尔曼方程【Bellman Equation】

使用 ZipArchiveInputStream 读取压缩包内文件总数

RuoYi-Vue开源项目2-前端登录验证码生成过程分析

记录一次服务器内存使用率过高达到90%告警问题排查。

一、第一阶段-Hadoop

二、第二阶段-lambda架构

三、第三阶段-kapa架构

相关文章：