当前位置: 首页 > wzjs >正文

展览展示设计网站计算机网站建设与推广

展览展示设计网站,计算机网站建设与推广,wordpress评论区插件,网络推广服务合同模板Spark运行架构总结 一、核心结构 Spark框架的核心是一个计算引擎,整体采用标准的master-slave结构。其中,Driver作为master,负责管理整个集群中的作业任务调度;Executor作为slave,负责实际执行任务。 二、核心组件 ‌…

 Spark运行架构总结

 

一、核心结构

Spark框架的核心是一个计算引擎,整体采用标准的master-slave结构。其中,Driver作为master,负责管理整个集群中的作业任务调度;Executor作为slave,负责实际执行任务。

 

二、核心组件

  1. Driver
    • Spark驱动器节点,用于执行Spark任务中的main方法,负责实际代码的执行。
    • 主要职责包括将用户程序转化为作业、在Executor之间调度任务、跟踪Executor的执行情况以及通过UI展示查询运行情况。
  2. Executor
    • Spark Executor是集群中工作节点(Worker)中的一个JVM进程,负责在Spark作业中运行具体任务,任务彼此之间相互独立。
    • 核心功能包括运行组成Spark应用的任务并将结果返回给Driver,以及通过块管理器为用户提供缓存的RDD内存式存储。
  3. Master & Worker
    • 在Spark集群的独立部署环境中,Master负责资源的调度和分配,并进行集群的监控等职责。
    • Worker运行在集群中的一台服务器上,由Master分配资源对数据进行并行的处理和计算。
  4. ApplicationMaster‌(仅在YARN环境中)
    • 用于向资源调度器申请执行任务的资源容器Container,运行用户自己的程序任务job,监控整个任务的执行,跟踪整个任务的状态,处理任务失败等异常情况。

三、核心概念

  1. ExecutorCore
    • Executor是集群中专门用于计算的节点,提交应用时可以指定计算节点的个数及对应的资源(如内存大小和虚拟CPU核数量)。
  2. 并行度(Parallelism
    • 整个集群并行执行任务的数量,取决于框架的默认配置,应用程序也可以在运行过程中动态修改。
  3. 有向无环图(DAG
    • Spark程序直接映射成的数据流的高级抽象模型,用于表示程序的拓扑结构。DAG由点和线组成的拓扑图形,具有方向性且不会闭环。

四、提交流程(基于YARN环境)

  1. Yarn Client模式
    • Driver在任务提交的本地机器上运行,适用于测试环境。
    • 流程包括Driver与ResourceManager通讯申请启动ApplicationMaster,ApplicationMaster向ResourceManager申请Executor内存,Executor进程启动后向Driver反向注册,Driver开始执行main函数,之后触发Job并根据宽依赖划分stage,将task分发到各个Executor上执行。
  2. Yarn Cluster模式
    • Driver在Yarn集群资源中执行,适用于生产环境。
    • 流程与Client模式类似,但ApplicationMaster即为Driver,且在Yarn集群中启动。

 五、RDD 基本定义

RDD(Resilient Distributed Dataset)‌:弹性分布式数据集,是 Spark 中最基本的数据处理模型。它是一个抽象类,代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。

RDD 的特性 

  1. 弹性

    • 存储的弹性:内存与磁盘的自动切换。
    • 容错的弹性:数据丢失可以自动恢复。
    • 计算的弹性:计算出错重试机制。
    • 分片的弹性:可根据需要重新分片。
  2. 分布式‌:数据存储在大数据集群不同节点上。

  3. 数据集‌:RDD 封装了计算逻辑,并不保存数据。

  4. 数据抽象‌:RDD 是一个抽象类,需要子类具体实现。

  5. 不可变‌:RDD 封装了计算逻辑,是不可以改变的,想要改变,只能产生新的 RDD,在新的 RDD 里面封装计算逻辑。

  6. 可分区、并行计算‌。

RDD 的核心属性

分区列表‌:用于执行任务时并行计算,是实现分布式计算的重要属性。

分区计算函数‌:Spark 在计算时,使用分区函数对每一个分区进行计算。

RDD 之间的依赖关系‌:当需求中需要将多个计算模型进行组合时,就需要将多个 RDD 建立依赖关系。

分区器(可选)‌:当数据为 K-V 类型数据时,可以通过设定分区器自定义数据的分区。

首选位置(可选)‌:计算数据时,可以根据计算节点的状态选择不同的节点位置进行计算。

RDD 的执行原理

Spark 框架在执行时,先申请资源,然后将应用程序的数据处理逻辑分解成一个一个的计算任务。然后将任务发到已经分配资源的计算节点上,按照指定的计算模型进行数据计算。最后得到计算结果。

六、创建Spark WordCount程序 

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}object WordCount {def main(args: ArrayString]): Unit = {val sparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount")val sc: SparkContext = new SparkContext(sparkConf)val fileRDD: RDD[String] = sc.textFile("Spark-core/input/word.txt")val wordRDD: RDD[String] = fileRDD.flatMap(_.split(" "))val word2OneRDD: RDD[(String, Int)] = wordRDD.map((_, 1))val word2CountRDD: RDD[(String, Int)] = word2OneRDD.reduceByKey(_ + _)val word2Count: Array[(String, Int)] = word2CountRDD.collect()word2Count.foreach(println)sc.stop()}
}

 七、RDD的创建方式

val rdd1 = sparkContext.parallelize(List(1, 2, 3, 4))
val rdd2 = sparkContext.makeRDD(List(1, 2, 3, 4))

八、RDD并行度与分区 

并行度‌:指能够并行计算的任务数量,可以在构建RDD时指定

分区规则‌:

读取内存数据时,按照并行度的设定进行分区

读取文件数据时,按照Hadoop文件读取规则进行切片分区

 

 

 

 

 


文章转载自:

http://8f9yu9tR.pqhfx.cn
http://DTuzwBLD.pqhfx.cn
http://ZGXvmnft.pqhfx.cn
http://n7wujUL7.pqhfx.cn
http://2wT2acia.pqhfx.cn
http://3dtp1VCE.pqhfx.cn
http://URFQ6ieL.pqhfx.cn
http://5fgGm8Eh.pqhfx.cn
http://2udgGtjV.pqhfx.cn
http://QUuGiCtW.pqhfx.cn
http://iOpd3nAL.pqhfx.cn
http://XYtqHqJz.pqhfx.cn
http://Xt6KyYom.pqhfx.cn
http://ZPUMuea1.pqhfx.cn
http://cmq8m7b9.pqhfx.cn
http://cnI8ghu2.pqhfx.cn
http://lF4T8qCc.pqhfx.cn
http://6HUrT8i4.pqhfx.cn
http://zf6b2kXw.pqhfx.cn
http://tyCyhkgm.pqhfx.cn
http://Rkxl64ZV.pqhfx.cn
http://CPyCaPUP.pqhfx.cn
http://F03eSJdz.pqhfx.cn
http://JpHupi4C.pqhfx.cn
http://w7h7eVc3.pqhfx.cn
http://ewtdFAch.pqhfx.cn
http://dhNgV1ny.pqhfx.cn
http://yhJMxtbv.pqhfx.cn
http://KtQnHNtm.pqhfx.cn
http://9U59qmFu.pqhfx.cn
http://www.dtcms.com/wzjs/630794.html

相关文章:

  • 建设p2p网站惠城网站建设
  • 桐乡网站建设潍坊网站建设如何
  • 织梦网站怎么做备份wordpress文章添加动态数据
  • 有了域名空间怎么做网站网盘做电子书下载网站
  • 做wd网站实训报告总结上海地产网站建
  • 国外做宠物产品的网站手机代理企业网站
  • 网站建设加微信上海的公司
  • 做算命网站挣钱么抖音分享小程序怎么赚钱
  • 东莞网站建设多少钱哪个网站开发是按月付费的
  • 西安公司做网站福州做网站开发需要多少钱
  • 被禁止访问网站怎么办设计网络网站有哪些功能
  • 网站建设方案及报建站公司郑州
  • 商城型网站开发网站建设html制作简单的网页
  • 广州市增城区建设局网站楚雄seo
  • 那些网站被k恢复是怎么做的flash网站源码免费下载
  • 企业网站开发的背景和意义全渠道营销成功案例
  • 登录浏览器是建设银行移动门户网站扶沟县建设局网站
  • 打造对外宣传工作平台网站建设网站建设的步骤和要点
  • 网站搭建哪家好微信公众平台登录界面
  • wordpress开发者文档下载网站建设html代码优化
  • 深圳外包网站公司零基础一个人做网站
  • 建设pc端网站是什么意思世界500强企业排名2022
  • 中国企业信息网官方网站品牌建设归哪个部门管
  • 网站怎样续费武邑网站建设价格
  • 保险公司网站策划网站空间运行挂机宝
  • 快速提高网站权重提升黑群晖 wordpress
  • 学做蛋糕有哪些网站阿里云域名注册
  • 网站源码怎么弄湖北专业网站建设检修
  • asp.net网站开发试题广州网站建设推广易尚
  • 开县集团网站建设自己做网站开网店