当前位置: 首页 > news >正文

商务网站建设珠海做公司网站

商务网站建设,珠海做公司网站,深圳快速网站制作,最有效的招商方式HDFS YARN MapReduce关系 HDFS (分布式文件系统) 优缺点 优点 1. 高容错性:副本丢失,可以自动回复。 2. 适合处理大数据 3. 可以构建在廉价的机器上,通过对多副本机制,提高可靠性缺点 1. 不适合低延时数…

HDFS YARN MapReduce关系

在这里插入图片描述

HDFS (分布式文件系统)

优缺点

优点

1. 高容错性:副本丢失,可以自动回复。
2. 适合处理大数据
3. 可以构建在廉价的机器上,通过对多副本机制,提高可靠性

缺点

1. 不适合低延时数据访问,比如毫秒级的存储数据,做不到
2. 无法高效的对大量小文件进行存储: 存储大量小文件,会占用NameNode大量的内存来存储文件目录和块信息。NameNode内存有限。小文件存储的寻址时间会超过读取时间。
3. 不支持并发写入,文件随机修改。 a. 一个文件只能由一个写,不允许多个线程同时写。b. 仅支持数据append,不支持文件的随机修改。

组成

NameNode(nn)

存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间 ,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等。
1. Fsimage文件:HDFS文件系统元数据的一个永久性检查点,其中包含了HDFS文件系统的所有目录和文件inode的序列化信息。
2. Edits文件:存放HDFS文件系统的所有更新操作的路径,文件系统客户端执行的所有写操作首先会被记录到此。
3. seen_txid文件保存了一个数字,就是最后一个edits_的数字。最新的edits文件。

DataNode(dn)

在本地文件系统存储文件块数据,以及块数据的校验和。

工作机制

在这里插入图片描述

DataNode数据的完整性

1.DataNode读取Block时候,会计算CheckSum.
2. 如果计算后的CheckSumBlock创建的时候值不一样,说明Block已经损坏。
3. Client回去读取其他DataNode上的Block
4. 常见的校验算法:crc(32) ,md5(128),shal(160)
5. DataNode在其文件创建后周期性验证CheckSum.

在这里插入图片描述

Secondary NameNode(2nn)

每隔一段时间对NameNode元数据备份

工作流程

在这里插入图片描述

引入2NN的原因

1. NameNode中的元数据需要放到内存中,这样效率高,但是断电后,元数据丢失。因此产生在磁盘中备份元数据的FsImage2. 引入Edits文件(只进行追加操作,效率很高)。每当元数据有更新或者添加元数据时,修改内存中的元数据并追加到Edits中。
3. 长时间添加数据到Edits中,会导致该文件数据过大,效率降低,而且一旦断电,恢复元数据需要的时间过长。因此需要定期进行FsImageEdits的合并,如果这个操作由NameNode节点完成,又会效率过低。因此,引入一个新的节点SecondaryNamenode,专门用于FsImageEdits的合并。
其中edits_oo1是拉取之前的操作edits_inprogress_002是拉取之后进行的操作,因此从2NN更新完以后到NN上的数据结合002是最新的数据

读流程

在这里插入图片描述

1)客户端通过DistributedFileSystemNameNode请求下载文件,NameNode通过查询元数据,找到文件块所在的DataNode地址。
(2)挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。
(3DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校验)。
(4)客户端以Packet为单位接收,先在本地缓存,然后写入目标文件。

写流程

在这里插入图片描述

1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。
(2NameNode返回是否可以上传。
(3)客户端请求第一个 Block上传到哪几个DataNode服务器上。
(4NameNode返回3DataNode节点,分别为dn1、dn2、dn3。
(5)客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。
(6)dn1、dn2、dn3逐级应答客户端。
(7)客户端开始往dn1上传第一个Block(先从磁盘读取数据放到一个本地内存缓存),以Packet为单位,dn1收到一个Packet就会传给dn2,dn2传给dn3;dn1每传一个packet会放入一个应答队列等待应答。
(8)当一个Block传输完成之后,客户端再次请求NameNode上传第二个Block的服务器。(重复执行3-7步)

YARN(资源调度器)

组成

1. ResourceManager(RM) 主要作用(整个集群资源(cpu,内存)老大)a. 处理客户端请求b.监控NodeManagerc.启动或监控ApplicationMasterd.资源的分配和调度2. NodeManager(NM)主要作用(单个节点服务器资源的老大)a. 管理单个节点上的资源b.处理来自ResourceManager的命令c.处理来自ApplicationMaster的命令3. ApplicationMaster(AM) 作用(单个任务运行的老大)a. 为应用程序申请资源并分配给内部的任务b. 任务的监控与容错4. Container(相当于一台独立的服务器)YARN中的资源抽象,封装了某个节点上的多维度资源,如内存,CPU,磁盘,网络等。

工作机制

在这里插入图片描述

1)MR程序提交到客户端所在的节点。
(2YarnRunnerResourceManager申请一个Application。
(3)RM将该应用程序的资源路径返回给YarnRunner。
(4)该程序将运行所需资源提交到HDFS上。
(5)程序资源提交完毕后,申请运行mrAppMaster。
(6)RM将用户的请求初始化成一个Task。
(7)其中一个NodeManager领取到Task任务。
(8)该NodeManager创建容器Container,并产生MRAppmaster。
(9Container从HDFS上拷贝资源到本地。
(10MRAppmaster向RM 申请运行MapTask资源。
(11)RM将运行MapTask任务分配给另外两个NodeManager,另两个NodeManager分别领取任务并创建容器。
(12)MR向两个接收到任务的NodeManager发送程序启动脚本,这两个NodeManager分别启动MapTaskMapTask对数据分区排序。
(13MrAppMaster等待所有MapTask运行完毕后,向RM申请容器,运行ReduceTask。
(14ReduceTaskMapTask获取相应分区的数据。
(15)程序运行完毕后,MR会向RM申请注销自己。

三种调度器的

先进先出调度器(FIFO)

单队列,根据提交作业的先后顺序,先来先服务。

容量调度器(Apache hadoop 默认)

特点

在这里插入图片描述

1. 多队列:每个队列可以配置一定的资源量,每个队列采用FIFO调度策略。
2. 容量保证:管理员可为每个队列设置资源最低保证和资源使用上限。
3. 灵活性:如果一个队列中资源有剩余,可以暂时共享给需要资源的队列,一旦该队列由新的应用提交,则其他队列要归还。
4. 多租户:支持多用户共享集群(如上图的SS和CLS用户)和多应用程序同时运行。对同一用户提交的作业所占资源量进行限定。

容量分配算法

在这里插入图片描述

1. 队列资源分配从root开始,使用深度优先算法,优先选择资源占用率最低的队列分配资源。
2. 作业资源分配默认按照提交作业的优先级和提交时间顺序分配资源
3. 容器资源分配按照容器的优先级分配资源,如果优先级相同,按照数据本地行原则:a.任务和数据在同一节点上b.任务和数据在同一机架上c.任务和数据不再同一节点也不在同一机架上

公平调度器(CDH默认)

特点

在这里插入图片描述

同容量调度器一样。

与容量调度器的不同点

1. 核心调度策略不同容量:优先选择资源利用率低的队列公平:优先选择对资源的缺额比例大的
2. 每个队列可以单独设置资源分配方式

缺额

在这里插入图片描述

1. 公平调度器设计的目标是:在时间尺度上,所有作业获得公平的资源。某一时刻的一个作业应获取资源和实际获取资源的差距叫缺额。
2. 调度器会优先为缺额大的作业分配资源

队列资源分配方式

Fair策略 (默认)

在这里插入图片描述

在这里插入图片描述

http://www.dtcms.com/a/546742.html

相关文章:

  • 付网站建设费分录开通一个微信小程序
  • Pycatia二次开发基础代码解析:非实体清理、数据导出与产品转换自动化技术解析
  • 做网站找哪家好思南网页设计大赛策划书
  • 网站建设公司代理商网页设计与制作实验报告总结
  • 如何判断本地磁盘是固态硬盘还是机械硬盘
  • 光储充EMC合同模板
  • 利用技术搭建网站做网站代理线上线下相结合的营销模式
  • TorchIO:超级好用的3D医学图像处理package
  • 大规模微服务系统中的雪崩故障防治
  • wordpress图下一篇seo关键词搜索和优化
  • 【序章】金融量化入门级学习——暨一颗韭菜的茁壮成长
  • 网站搭建哪家好网络营销出来做什么
  • express风格的mcpServer
  • 吴江城乡住房和城乡建设局网站wordpress 打开慢
  • 北京做家教的的网站网站建设费用属于管理费用科目
  • 凉州区住房城乡建设局网站云南住房和城乡建设厅网站首页
  • Auto CAD二次开发——多边形多段线
  • 怎么用腾讯云主机建设网站网站配置域名解析
  • PCIe 5.0 SSD相比PCIe 4.0,体验提升明显吗?Kingston FURY Renegade G5
  • 3.3V系统电源自动切换方案全解析:从二极管到三电源无缝切换
  • 怎样建设旅游网站重庆北碚网站制作
  • 网站代码模板免费嵌入式软件开发和c++软件开发
  • 重庆做网站建设哪家好印度搜索引擎 龙之向导
  • 如何看到网站的制作公司把wordpress变成图床
  • 泉州住房与城乡建设网站帮企业做网站赚钱吗
  • 根据三阶Bezier曲线起点到中间某点的弧长,确定该点的参数u值的方法
  • 网络用户管理系统在线优化网站
  • wordpress站点改名wordpress做社交网站
  • 网站开发协议合作台州网站制作定制
  • 最新网站建设软件搜索引擎营销的缺点