当前位置: 首页 > wzjs >正文

珠宝网站策划书站长统计软件

珠宝网站策划书,站长统计软件,中国建设招聘网站甘肃分行,网站更新迭代运行架构:Spark采用master - slave结构,Driver作为master负责作业任务调度,Executor作为slave负责实际执行任务。 核心组件: Driver:执行Spark任务的main方法,负责将用户程序转化为作业、调度任务、跟踪E…

运行架构:Spark采用master - slave结构,Driver作为master负责作业任务调度,Executor作为slave负责实际执行任务。

核心组件:

Driver:执行Spark任务的main方法,负责将用户程序转化为作业、调度任务、跟踪Executor执行情况并通过UI展示运行情况。

Executor:是Worker中的JVM进程,负责运行任务并返回结果,还为RDD提供内存式存储。

Master & Worker:在独立部署环境中,Master负责资源调度和集群监控,Worker负责在Master分配资源后进行数据处理计算。

ApplicationMaster:在YARN环境中,负责申请资源、运行任务、监控任务执行和处理异常情况,解耦合ResourceManager和Driver。

核心概念

Executor与Core:Executor是计算节点,提交应用时可指定其数量、内存大小和使用的虚拟CPU核数量。

并行度:指整个集群并行执行任务的数量,取决于框架默认配置,也可在运行时动态修改。

有向无环图(DAG):是Spark程序映射成的数据流抽象模型,用于直观展示程序执行过程和拓扑结构。

提交流程:以Yarn环境为例,Spark应用有Client和Cluster两种部署执行模式。

Yarn Client模式:Driver在本地机器运行,与ResourceManager通讯申请启动ApplicationMaster,后续流程包括启动Executor、反向注册、执行main函数等,执行Action算子时触发Job并分发任务。

Yarn Cluster模式:Driver在Yarn集群资源中启动,同样与ResourceManager通讯申请资源,启动Executor等,后续任务执行流程与Client模式类似。

Spark Core中的RDD

1. RDD概述:RDD是Spark最基本 的数据处理模型,是一个抽象类,代表弹性、不可变、可分区且元素可并行计算的集合。具有存储、容错、计算、分片弹性,数据分布式存储,封装计算逻辑但不保存数据。

2. 核心属性:包含分区列表、分区计算函数、RDD间依赖关系、分区器(K-V数据时可选)、首选位置(可选),这些属性在分布式计算中发挥关键作用。

3. 执行原理:在Yarn环境中,先启动集群,Spark申请资源创建调度和计算节点,将计算逻辑按分区划分为任务,调度节点根据计算节点状态发送任务执行,RDD负责封装逻辑并生成任务。

4. 序列化:包括闭包检查,确保算子外数据可序列化;支持Kryo序列化框架,比Java序列化快10倍,但仍需继承Serializable接口。

5. 依赖关系:RDD通过血缘关系记录元数据和转换行为,用于恢复丢失分区。依赖关系分为窄依赖(父分区最多被子分区的一个使用)和宽依赖(父分区被多个子分区依赖,会引发Shuffle)。基于依赖关系划分阶段和任务,一个Action算子生成一个Job,Stage数量为宽依赖个数加1,一个Stage中最后RDD的分区个数就是Task个数。

6. 持久化:RDD可通过Cache或Persist方法缓存计算结果,默认存于JVM堆内存,触发action算子时缓存,容错机制保证缓存丢失时计算正确。CheckPoint将RDD中间结果写入磁盘,切断血缘依赖,提升容错性,执行Action操作才会触发。Cache可靠性低,CheckPoint数据存储于HDFS等可靠性高的文件系统,建议对Checkpoint的RDD使用Cache缓存。

7. 分区器:Spark支持Hash分区(默认)、Range分区和自定义分区,仅Key - Value类型RDD有分区器。Hash分区根据key的hashCode取余决定分区,Range分区使数据在分区内均匀且有序。

8. 文件读取与保存:可从文件格式(text、csv、sequence、object文件)和文件系统(本地、HDFS、HBASE、数据库)两个维度区分。不同文件格式有各自的读取和保存方法,如textFile和saveAsTextFile用于text文件操作。

词频统计:

 

 

http://www.dtcms.com/wzjs/393272.html

相关文章:

  • 网站建设功能要求百度定位店铺位置怎么设置
  • 网站没备案做淘宝客百度知道首页网
  • discuz论坛网站做的门户全渠道营销的概念
  • 论坛网站怎么做排名官方网站怎么注册
  • 漯河网站建设百度软件中心
  • 漂亮的php网站源码营销成功的案例
  • 淘宝天猫做网站咨询aso苹果关键词优化
  • 临沂免费自助建站模板百度指数数据下载
  • 做设计不进设计公司网站软件开发流程
  • 2020电商网站排行榜北京网站优化站优化
  • 哪里可以找人做网站微信小程序
  • 网站用哪些系统做的比较好用seo推广方法
  • 网站开发需求分析报告最新病毒感染什么症状
  • 优秀个人网站主页软件外包公司有哪些
  • 阿里云网站建设的功能农产品网络营销
  • 手机不想访问指定网站怎么做企业邮箱注册申请
  • 信阳网站建设公司排名seo技术有哪些
  • 网站排名优化seo世界十大搜索引擎排名
  • 网站重新建设的申请书seo和sem推广
  • 网页设计实验报告收获seo排名优化软件有用
  • 国外做任务的网站上海关键词推广
  • 世界建设企业网站企业营销策划书模板
  • 临沧市住房和城乡建设局网站吉林seo关键词
  • 传媒公司网站建设西安sem竞价托管
  • 怎样免费做彩票网站网络平台建站
  • 网站建设选哪家公司信息流广告加盟代理
  • 外国字体网站长沙建设网站制作
  • 洛阳平台公司seo人人网
  • 如何开发网站建设业务软文营销的五个步骤
  • 注册公司代理有哪些优化关键词排名的工具