当前位置: 首页 > news >正文

二、Hadoop狭义和广义的理解

作者:IvanCodes
日期:2025年5月6日🫠
专栏:Hadoop教程

Hadoop 的双重身份:核心框架与生态系统

大数据领域Hadoop 是一个广为人知的概念,但它并非单指某一个软件,而是涵盖了两个层面的含义。一方面,它代表着基础的核心框架;另一方面,它还包括围绕这个核心框架构建起来的庞大工具集合,也就是 Hadoop 生态系统。清晰地理解这两个层面区别,对于我们精准掌握这一关键的大数据技术至关重要。

狭义 Hadoop:三大核心奠定基础

狭义的角度来看,Hadoop 是最初为解决“海量数据存不下算不动”难题而诞生的核心开源框架。它主要由以下三个关键部分构成:
在这里插入图片描述

  • HDFS(分布式文件系统)专门用于解决 大数据的存储问题。它会将大文件分割成多个数据块,并将这些数据块分散存储多台普通的机器(DataNode)上。同时,通过副本机制来确保数据的可靠性。而文件的目录信息元数据则由 NameNode 进行集中管理

  • MapReduce(计算模型):为分布式计算提供了一种编程范式。它把复杂的任务分解为 Map(并行处理)Reduce(汇总结果)两个阶段,大大简化了 大规模数据处理编程过程。尽管如今已经出现了更先进的计算引擎,但 MapReduce思想依然具有深远的影响力

  • YARN(资源管理器):负责对集群中的资源(如 CPU内存等)进行统一的管理和调度。自 Hadoop 2.x 版本引入 YARN 之后,同一个集群能够同时运行 MapReduceSparkFlink多种计算框架显著提高了 资源的利用率平台的通用性

三个部分——存储计算模型资源管理共同构成了 狭义 Hadoop基础,是整个 Hadoop 生态系统基石

广义 Hadoop:丰富的生态工具箱

仅仅拥有 核心框架往往是不够的。为了满足数据采集转换查询分析流处理工作流管理多样化的需求社区开发了大量与 Hadoop 紧密集成的工具。这些工具共同组成了广义上的 Hadoop,也就是 Hadoop 生态系统。这个生态系统 规模庞大常见的组成部分包括:
在这里插入图片描述

  • 数据迁移/采集工具Sqoop 可实现数据库与 Hadoop 之间的数据相互导入导出Flume 则用于流式日志的收集

  • 数据处理/分析工具Hive 允许用户使用 SQL 语句来查询 HDFS 中的数据;Pig 提供了一种数据流脚本语言Spark 是一个通用的内存计算引擎Flink 则支持流处理和批处理

  • NoSQL 存储工具HBase 是基于 HDFS列式数据库,支持随机读写操作

  • 消息队列工具Kafka 是一个高吞吐量的分布式消息系统

  • 任务调度工具OozieAzkaban 可用于管理复杂的工作流

  • 协调服务工具ZooKeeper分布式系统提供协调服务

在这里插入图片描述

Hadoop 生态系统提供了一站式的大数据解决方案,用户可以根据自身的需求 灵活地组合使用这些工具

区分的重要性

理解 Hadoop广义 Hadoop区别具有重要意义。对于学习者来说,有助于他们抓住核心要点;对于从业者而言,能够帮助他们构建完整的大数据解决方案;同时,在技术交流过程中,也可以避免因概念混淆而产生的误解。我们既要充分认识核心框架的基础性作用,也要了解 生态系统的丰富多样性

结语:根基与枝叶的协同

Hadoop强大力量源于其稳固的核心框架繁茂的生态系统。就像一棵大树一样HDFSYARNMapReduce 思想是深深扎根于地下的树根,而众多的生态组件则是伸展在地面上的枝叶。正是树根与枝叶协同合作,才使得 Hadoop大数据领域 扮演了如此重要的角色

相关文章:

  • 宏电全新升级单北斗5G电力DTU,为每一公里电力线路注入可靠连接
  • springboot微服务连接nacos超时
  • SMT贴片钢网精密设计与制造要点解析
  • openEuler22.03 环境编译安装 PostgreSQL 15.6 + PostGIS 3.4.1
  • 【计算机网络】TCP/IP四层模型是什么?与OSI七层模型哪些区别?
  • Nginx安全防护与HTTPS部署
  • AI大模型驱动的智能座舱研发体系重构
  • 金升阳科技:配套AC/DC砖类电源的高性能滤波器
  • 如何开始使用 Blender:Blender 3D 初学者指南和简介 怎么下载格式模型
  • 制造企业PLM系统成本基准:2025年预算分配与资源成本率的5种优化模型
  • Spark,配置hadoop集群2
  • 从贴牌到品牌:出海官网如何让中国制造“贵”起来?
  • Java基础学完,继续深耕(0506)SQL--多表关系
  • 【Hive入门】Hive行级安全:基于Apache Ranger的细粒度访问控制深度解析
  • ShardingJdbc-水平分库
  • 【ArcGISPro】属性规则--属性联动
  • 【JsonCpp、Muduo、C++11】JsonCpp库、Muduo库、C++11异步操作
  • 根据蓝牙名称自动匹配对应 UI
  • BigemapPro小技巧:调整线方向及延长线
  • IAA-Net:一种实孔径扫描雷达迭代自适应角超分辨成像方法——论文阅读
  • 中国驻俄大使张汉晖人民日报撰文:共襄和平伟业,续谱友谊新篇
  • 国内外数十支搜救犬队伍齐聚三明,进行废墟搜救等实战
  • 苏杯登顶看到老将新人冲劲,国羽用冠军为奥运新周期开好头
  • 下达专项资金、党政主官田间调研……全国多地力保夏粮稳收
  • 辛涛任山东第一医科大学副校长,曾为“博士服务团”成员
  • 王毅在金砖正式成员和伙伴国外长会上的发言