当前位置: 首页 > news >正文

Spark专有名词

《Spark大数据开发与应用案例(视频教学版)(大数据技术丛书)》(段海涛,杨忠良,余辉)【摘要 书评 试读】- 京东图书

1. Cluster Manager(集群管理器)

在集群上获取资源的拓展服务,Spark主要支持三种类型:Standalone(Spark自带的集群管理模式)、Mesos(Apache Mesos是一个集群管理器,用于在分布式环境中运行应用程序)、Yarn(Hadoop YARN是Hadoop 2.x中的资源管理系统)。

2. Master(主节点)

在Spark的Standalone集群管理模式中,Master是一个关键的组件,它负责接收来自客户端的Spark作业请求,管理集群中的Worker节点,以及进行资源分配和作业调度。

3. Worker(工作节点)

集群中任何可以运行Spark应用程序的节点。在Standalone模式中,Worker节点使用Spark的conf目录下的Slave文件来配置;在Spark on yarn模式中,Worker节点对应的是Nodemanager节点。

4. SparkSubmit(Spark任务提交)

SparkSubmit是Spark提供的一个命令行工具,用于提交Spark应用程序到集群上运行。通过SparkSubmit,用户可以指定应用程序的主类、依赖的jar包、运行模式(如Standalone、Yarn等)以及各种配置参数。

5. Application(应用程序,或者称为应用)

用户编写的Spark代码,包含运行在Driver端的代码和运行在各个节点上的Executor代码。

6. Job(作业)

由Spark的Action操作触发,包含多个RDD及作用于RDD上的各种操作。一个Job由多个Stage组成,每个Stage包含多个Task。

7. Driver(驱动程序)

运行用户程序的main()函数,并创建SparkContext,它是Spark程序的入口点。Driver负责初始化Spark应用程序的运行环境,与Cluster Manager进行通信,进行资源的申请、任务的分配和监控等。

8. SparkContext(Spark上下文)

Spark应用程序的上下文,控制应用程序的生命周期。它负责与Cluster Manager进行通信,进行资源的申请、任务的分配和监控等。

9. Executor(执行器)

在工作节点上为Spark应用程序所启动的一个进程,负责运行任务,并可以在内存或磁盘中保存数据。每个应用都有属于自己的独立的一批Executor。

10. Task(任务)

被送到某个Executor上的工作单元,是运行Spark应用的基本单元。

11. TaskSet(任务集合)

TaskSet是Spark中的一个概念,它代表了一个Stage中所有任务的集合。每个TaskSet中的任务是并行执行的,每个任务对应着RDD中的一个分区的数据处理。

12. TaskScheduler(任务调度器)

接收DAGScheduler提交过来的TaskSet,然后把一个个Task提交到Worker节点运行,每个Executor运行什么Task也是在此处分配的。

13. DAG(Directed Acyclic Graph,有向无环图)

在Spark中,DAG是用来表示Spark作业执行计划的一个重要数据结构。DAG中的节点代表RDD(Resilient Distributed Dataset,弹性分布式数据集)的转换操作(如map、filter、reduce等),DAG中,边是连接节点的线条,用于表示节点之间的关系。这些关系通常指的是任务之间的依赖关系或执行顺序。

14. DAGScheduler(有向无环图调度器)

负责接收Spark应用提交的Job,根据RDD的依赖关系划分Stage,并提交Stage给TaskScheduler。

15. Stage(阶段)

Stage是DAGScheduler根据RDD之间的依赖关系(宽依赖或窄依赖)对Job进行阶段划分的结果。一个Stage包含多个Task,这些Task会在Executor上并行执行。

16. RDD(弹性分布式数据集)

Spark的编程模型,是已被分区、被序列化、不可变、有容错机制的,并且能够并行操作的数据集合。RDD是Spark中数据的基本抽象,所有对数据的操作都是基于RDD进行的。

17. Narrow Dependency(窄依赖)

窄依赖指父RDD的一个分区会被子RDD的一个分区依赖。窄依赖允许RDD的分区在多个不同的任务之间并行计算。

18. Wide Dependency(宽依赖)

宽依赖指父RDD的一个分区会被子RDD的多个分区所依赖。宽依赖通常会导致shuffle操作,需要将数据重新分布到集群中的不同节点上。

http://www.dtcms.com/a/566412.html

相关文章:

  • wordpress 创建子主题外链seo招聘
  • 广告公司网站设计策划设计ui是什么意思
  • 怎么在Adobe Photoshop中调用banana与flux、即梦4.0等AI图像模型?AI+工作流已成为平面设计师必备技术手段!不用等着被淘汰吧!
  • 免费的网站域名查询565wccwordpress交互式地图
  • 先建网站还是先做app好特产网站源码
  • 轻云服务器 多个网站wordpress表白模板下载
  • 腾冲做兼职的网站专业企业展厅设计公司
  • 前端导出大量数据到PDF方案
  • 全自动分液站在实验室自动化中的关键作用与性能解析
  • C2S-Scale 27B 模型: AI 解码 “细胞语言“,发现癌症疗法新途径
  • 学做网站需要文化嘛seo网站优化推广教程
  • 电介质的主要电气特性:液体电介质的损耗--与温度和频率的关系
  • 求最大连续bit数
  • C++入门(一)(竞赛)
  • 差分隐私随机梯度下降(DP-SGD)详解
  • AUTOSAR 通信栈深度解析:PduR 与 CanTp 的交互机制(图文详解)
  • 大学网站策划方案网站制作费用及后期运营
  • 告别ESLint:在Vue 3项目中拥抱编码自由
  • 网站开发人员 平均工资动易网站管理系统教程
  • 一款基于 .NET WinForm 开源、轻量且功能强大的节点编辑器,采用纯 GDI+ 绘制无任何依赖库仅仅100+Kb
  • 买域名不建网站html5 做手机网站
  • ONNX Runtime CUDA版本兼容性指南
  • SSM图书馆自习室占座选座zg09h(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
  • 与企业网站做接口在线培训方案设计
  • idea运行tomcat的日志文件放到哪里了
  • 招聘网有哪些平台网站seo排名优化
  • Java静态关键字深度解析:从内存模型到类加载机制
  • 厦门做公司网站淄博抖音推广公司
  • 福建网站建设价格wordpress+小米商城
  • 京东 jd.item_review API 返回值全面解析​​