当前位置: 首页 > news >正文

大数据 - 1. 概述

  1. 早期的计算机(上世纪70年代前) 是相互独立的,各自处理各自的数据
  2. 上世纪70年代后,出现了基于TCP/IP协议的小规模的计算机互联互通。
  3. 上世纪90年代后,全球互联的互联网出现。
  4. 当全球互联网逐步建成(2000年左右),各大企业、政府有海量的数据亟待处理。 于是诞生了以分布式的形式(即多台服务器集群)完成海量数据处理的处理方式,并逐步发展成现代大数据体系。

Apache Hadoop对大数据体系的意义

  • 第一款获得业界认可的开源分布式解决方案
  • 让各类企业都可用的企业级开源分布式解决方案
  • 催生出了众多的大数据体系技术栈,从Hadoop开始(2008年),大数据开始迅速发展

大数据就是:用分布式技术来处理 海量数据,得到数据背后蕴含的价值。

狭义上:大数据是一类技术栈,是一种用来处理海量数据的软件技术体系。

大数据的核心工作

大数据软件生态

 数据存储

Apache Hadoop - HDFS

Hadoop框架的HDFS组件是使用 最广泛的分布式存储技术

Apache HBase

使用非常广泛的NoSQL KV型数据库技术。HBase是基于HDFS构建的。

Apache KUDU

使用较多的分布式存储引擎
云平台存储组件各大云平台厂商也有相应的大数据存储组件,如 阿里云的OSS、UCloud的US3、AWS的S3、金山云的KS3等等

数据计算

Apache Hadoop - MapReduce

Hadoop的MapReduce组件是最早的分布式计算引擎

Apache Hive

以SQL为开发语言的分布式计算框架。底层使用Hadoop 的MapReduce技术。

Apache Hive仍活跃在大数据一线,许多公司使用。

Apache Spark

分布式内存计算引擎。 

Apache Flink

分布式内存计算引擎。

在实时计算(流计算)领域,Flink占据大多数的国内市场。

数据传输

Apache Kafka

一款分布式的消息系统,可以完成海量规模的数据传输。 大数据领域的明星产品

Apache Pulsar

一款分布式的消息系统。 有非常多的使用者。

Apache Flume

一款流式数据采集工具,可以从非常多的数据源中完成数据采集传输的任务。

Apache Sqoop

一款ETL工具,可以协助大数据体系和关系型数据库 之间进行数据传输。

http://www.dtcms.com/a/122514.html

相关文章:

  • 第一章初识爬虫
  • 【力扣hot100题】(079)划分字母区间
  • vue3.2 +vxetable4.6 渲染大数据列,出现错乱问题处理方案
  • BabelDOC ,开源的 AI PDF 翻译工具
  • 20250409-大数据-python数据处理平台/接口平台(DFF)
  • 基于cartographer 1.0.0 不使用ros 使用激光雷达数据和IMU数据融合实现的建图
  • Redis的Spring客户端的使用
  • Android系统深度定制:源码级拦截adb install的完整解决方案
  • Windows 11 家庭中文版 安装docker desktop 无法开启自启动问题处理
  • matlab内置的git软件版本管理功能
  • CSS AI 通义灵码 VSCode插件安装与功能详解
  • MySQL学习笔记十四
  • 安徽京准:NTP网络时钟服务器功能及同步模式的介绍
  • oracle将varchar2 转为clob类型存储。 oracle不支持直接使用sql,将 varchar2 到clob的类型转换,需要下面操作
  • Java + WebAssembly 2025:如何用Rust优化高性能Web应用?
  • proteus OLED12864仿真
  • centos 安装python3.9.9
  • Jupyter Lab 无法启动 Kernel 问题排查与解决总结
  • 山东大学软件学院项目创新实训开发日志(8)之数据库建表
  • 从响应式编程到未来架构革命:解锁高并发时代的底层思维范式
  • MySQL日期时间类型详解:DATE、TIME和DATETIME的用法与区别
  • 【Ansible自动化运维】二、Playbook 深入探究:构建复杂自动化流程
  • idea插件:AICommit,智能生成Git提交信息
  • 停车场管理系统带万字文档基于Springboot+Vue的前后端分离停车场管理系统Springboot项目java项目java课程设计java毕业设计
  • Open Scene Graph 3D到2D坐标转换
  • 【数据库原理及安全实验】实验二 数据库的语句操作
  • 【软件测试】自动化测试框架Pytest + Selenium的使用
  • Ubuntu 24.04启用root账户
  • Hi168云平台部署Ansible学习环境
  • Mysql(继续更新)