当前位置: 首页 > wzjs >正文

丰台怎样做网站2024年最新时事新闻

丰台怎样做网站,2024年最新时事新闻,网站快照倒退,服务器有了网站怎么做的作者:IvanCodes 日期:2025年5月7日 专栏:Hadoop教程 一、Hadoop 1.X 概述 (一)概念 Hadoop 是 Apache 开发的分布式系统基础架构,用 Java 编写,为集群处理大型数据集提供编程模型,…

作者:IvanCodes
日期:2025年5月7日
专栏:Hadoop教程

一、Hadoop 1.X 概述

(一)概念

HadoopApache 开发的分布式系统基础架构,用 Java 编写,为集群处理大型数据集提供编程模型,是海量数据存储与计算开源框架狭义Hadoop软件广义代表大数据生态Hadoop 1.x两大核心MapReduceHDFSHDFS 负责分布式存储MapReduce 负责数据计算

(二)特点

在这里插入图片描述
在这里插入图片描述

  1. 可扩展性:能处理PB级数据,通过增减节点灵活伸缩
  2. 高容错性数据副本机制,部分节点故障不影响系统可用性
  3. 成本效益开源,运行于普通硬件降低软硬件成本
  4. 高效性MapReduce并行处理,计算向数据移动减少网络开销
  5. 灵活性:支持多种数据格式(结构化、半结构化、非结构化)。
  6. 可移植性:基于Java,可部署于多平台(本地、云)。
  7. 社区支持庞大活跃开源社区,资源丰富
  8. 生态丰富:围绕Hadoop众多工具(Hive, Pig, HBase, Spark等)。

(三)工作原理

Hadoop 1.x 采用主从架构核心进程包括:NameNode (HDFS主)、DataNode (HDFS从)、JobTracker (资源管理与作业调度)、TaskTracker (执行任务)。用户提交作业后,JobTracker 调度并将任务分配TaskTracker。数据存储HDFSNameNode管理元数据DataNode存储实际数据块
请添加图片描述

(四)发展历史

在这里插入图片描述

  1. 起源:源于Nutch搜索引擎项目扩展性需求。受GoogleGFSMapReduce论文启发,Nutch开发者实现HDFSMapReduce,后剥离Hadoop
  2. 发展2006年Apache Hadoop项目启动雅虎大力支持。 2008年Apache顶级项目Cloudera成立推动商业化后续生态日渐繁荣众多公司开始应用

二、Hadoop 1.X 核心组件

(一)HDFS

1. 概念

HDFS (Hadoop分布式文件系统)是Hadoop数据存储基础。它高度容错,运行于廉价硬件,通过流式数据访问支持高吞吐量,适合大型数据集

2. 特点
  • 大文件存储:适合TB、PB级大文件。
  • 分块存储:大文件切块(默认64M),多副本(默认3个)存不同机器,提高读写效率容错性
  • 流式访问:“一次写入,多次读取”,不支持文件随机修改仅支持追加
  • 廉价硬件:可在普通PC搭建集群。
  • 高容错副本机制确保节点故障时数据不丢失
3. 工作原理

HDFS采用Master-Slave架构,含一个NameNode(主)和多个DataNode(从)。

  • NameNode:管理文件系统命名空间(元数据:文件名、目录、块位置等),控制客户端访问。元数据存内存并持久化到磁盘(fsimage, edits log)。
  • DataNode实际存储文件数据块校验和。向NameNode注册并周期性发送心跳块报告
  • Secondary Namenode辅助NameNode定期合并fsimage和edits log,减轻NameNode压力可能减少宕机时数据丢失
4. 发展历史

HDFS设计思想 深受 Google分布式文件系统 GFS启发。如前所述,Nutch 项目的核心开发者 Doug Cutting 等人借鉴 GFS理念实现了 HDFS,并将其作为 Hadoop 不可或缺的一部分。在 Hadoop整个发展过程中,HDFS经历持续的改进和优化,以不断提高性能、可靠性可扩展性

(二)MapReduce

1. 概念

MapReduce分布式计算框架第一代离线数据计算引擎,处理TB、PB级数据。核心思想是计算MapReduce两阶段。

2. 特点
  • 分而治之:Map阶段并行局部处理,Reduce阶段并行全局汇总
  • 移动计算计算程序移至数据节点减少网络I/O
3. 工作原理
  • 输入切片:文件逻辑切片(InputSplit),每Split一Map Task
  • Map阶段:Map Task处理输入数据,输出中间键值对
  • Shuffle阶段:Map中间结果 复制、排序、分组到Reduce Task。
  • Reduce阶段:Reduce Task汇总相同key的中间值,输出最终结果
4. 发展历史

MapReduce思想根源Google2004年发表的著名论文《MapReduce: Simplified Data Processing on Large Clusters》。在 Hadoop 1.x 版本中,MapReduce 不仅承担分布式数据计算核心角色,其内部的 JobTracker 组件还同时负责集群的资源管理和作业调度。这种设计使得 MapReduce 框架显得比较臃肿,并且限制Hadoop 集群只能运行 MapReduce 类型的任务。从 Hadoop 2.x 版本开始,官方MapReduce功能进行了拆分,引入了独立的资源管理框架 YARN。此后,MapReduce (通常称为 MapReduce on YARN 或 MRv2) 仅专注于作为分布式数据计算引擎核心职责

三、Hadoop 1.X 组件关联分析

(一)组件关联图说明

在这里插入图片描述

(二)协同工作机制

HDFSMapReduceHadoop1.X紧密协作
HDFSMapReduce提供数据存储NameNode提供元数据DataNode存储数据块MapReduce的Map Task从DataNode读取数据。
MapReduce利用HDFS数据进行计算。Map Task局部处理,Reduce Task全局汇总JobTracker负责资源管理和作业调度,将任务分配TaskTracker考虑数据本地性

例如,日志分析:日志存HDFSMapReduce作业启动,JobTracker将Map Task分配数据节点。Map Task局部分析。Shuffle后,Reduce Task汇总,结果写回HDFS

四、Hadoop 1.X 与其他版本的对比

Hadoop 1.x vs Hadoop 2.x

  • YARN引入最核心区别。Hadoop 2.x引入YARN分离资源管理与计算,支持多种计算框架(Spark等),不再局限于MapReduce。
  • 存储与容错:Hadoop 2.x支持纠删码,比1.x的3副本方案更节省存储
  • 单点故障:Hadoop 1.x的NameNodeJobTracker存在单点故障。Hadoop 2.x引入HA机制解决此问题,提高集群可靠性
http://www.dtcms.com/wzjs/185762.html

相关文章:

  • 没有版权的图片网站百度手机助手app下载并安装
  • 用数据库代码做家乡网站爱站网注册人查询
  • 怎么做dnf辅助网站上海品牌推广公司
  • 南山区网站建设公司图片外链
  • 网站开发用哪种语言做好seo优化信
  • 可以提升自己的网站seo岗位有哪些
  • 如何在百度上做自己的网站seo课培训
  • 武汉市新洲区建设局网站百度搜索热度
  • 注册公司什么网站北京网站营销seo方案
  • 做网站要在vs安装什么百度我的订单
  • 建网站引流做淘宝百度搜索链接入口
  • 政府网站建设先进个人事迹佛山百度seo代理
  • 曼朗策划网站建设天津优化网络公司的建议
  • 泰安高端网站建设百度官方网站登录
  • 网站前后端分离怎么做看啥网一个没有人工干预的网
  • 个人网站花多少钱谷歌浏览器网页版
  • vs2010网站制作教程软文推广发稿
  • 网站跳转怎么做指数基金怎么买才赚钱
  • 横岗网站建设服务项目服务外包公司
  • 网站开发过程阶段百度快照手机版网页版
  • 做网站用什么cms 知乎百度知道官网
  • 未做301重定向的网站申请网址怎么申请的
  • 如何创建一个公司网站识图找图
  • 网站移动端优化工具seo网站优化策划书
  • 安义网站建设网站互联网推广
  • 值得收藏的网站超级软文
  • 广州seo优化宝鸡seo外包公司
  • 网络工作室灰色网络营销中的seo是指
  • 网站链接锚文字怎么做怎么开网站平台挣钱
  • 网站怎样做没有病毒网络安全培训机构排名