当前位置：首页 > news >正文

spark任务的提交流程

news 2025/7/6 14:20:35

目录

- spark任务的提交流程
- - 1. 资源申请与初始化
  - 2. 任务划分与调度
  - 3. 任务执行
  - 4. 资源释放与结果处理
  - 附：关键组件协作示意图
  - 扩展说明

SparkContext介绍

spark任务的提交流程

用户创建一个 Spark Context；
Spark Context 去找 Cluster Manager 申请资源同时说明需要多少 CPU 和内存等资源；
Cluster Manager 根据用户提交时设置的参数（CPU、内存），去找 WorkerNode 并启动 Executor，并介绍 Executor 给Driver；
Driver 会将用户程序划分为不同的 stage，每个 stage 会有一组完全相同的 task 来构成。这些 task 会作用于一些待处理的数据和不同的分区，在阶段划分和 task 创建完成后，Driver 会向 Executor 发送 task；
Executor 在接收到 task 后会下载 task 运行时的依赖，准备好 task 的运行环境，然后开始执行 task 并实时将 task 的运行环境传输给 Driver；
Driver 根据收到的 task 的运行情况来进行状态更新，不断的调用 task 来交给 Executor 执行，直到 task 全部执行正确。若超过最大重试次数还没有执行成功，就会停止 task。

1. 资源申请与初始化

用户创建SparkContext（SC），SC向集群管理器（如YARN或Standalone Master）申请资源，指定CPU和内存需求
集群管理器根据参数分配资源：
- Standalone模式：Master直接管理Worker节点，创建Executor并注册到SC
- YARN模式：RM创建ApplicationMaster（AM），AM通过NodeManager（NM）申请容器资源启动Executor

2. 任务划分与调度

Driver（即SC所在进程）将用户程序解析为DAG图，根据宽依赖（ShuffleDependency）划分Stage：
- 宽依赖触发Shuffle操作，形成ShuffleMapStage
- 窄依赖合并为ResultStage
每个Stage被拆分为多个Task，每个Task对应一个数据分区的处理逻辑

3. 任务执行

Executor接收Task后：
1. 下载任务依赖的代码和数据
2. 创建线程池并行执行Task
3. 实时向Driver汇报执行进度和状态
任务失败时自动重试，超过最大重试次数则作业失败

4. 资源释放与结果处理

所有Task执行完成后：
- Driver生成最终结果（如写入存储系统）
- SC向集群管理器释放资源
- 在YARN模式中，AM会主动注销应用

附：关键组件协作示意图

http://www.dtcms.com/a/202311.html

相关文章：

大数据Spark（五十九）：Standalone集群部署

【大模型】SpringBoot 整合Spring AI 对接主流大模型平台实战详解

前端单点登录

【Linux笔记】——线程同步信号量与环形队列生产者消费者模型的实现(PV操作)

BigemapPro蒙版使用技巧：精准导出地图范围

2025年AI搜索引擎发展洞察：技术革新与市场变革

代码随想录算法训练营 Day52 图论Ⅲ 岛屿问题Ⅱ 面积孤岛水流造岛

基于AutoDL市场下的Pycharm远程控制

window 显示驱动开发-GDI 硬件加速

驱动开发硬核特训 · Day 31：理解 I2C 子系统的驱动模型与实例剖析

每日Prompt：双重曝光

软考中级软件设计师——计算机网络 IP地址与子网掩码相关题型

亚远景-汽车软件开发的“升级之路”：ASPICE各等级说明

汽车充电过程中--各个电压的关系（DeepSeek）

Vue+eElement ui el-input输入框 type=number 输入无效。赋值输入框也不显示（问题已解决）

新能源汽车焊接智能节气阀

46 python pandas

2025 年暑假 LBE 大空间市场火爆程度预测：技术驱动与消费升级下的增长引擎

JavaSenderMail发送邮件（QQ及OFFICE365）

指令烧录ORIN NANO操作系统

地图收费，企业成本骤增，有哪些替代方案可破局？

Brave 连接 Websocket 失败

第8天-Python趣味绘图：用Turtle库开启绘画编程之旅

【jmeter】base64加密

阿博图书馆管理系统 Java+Spring Boot+MySQL 实战项目分享

使用 vite-plugin-dynamic-base 实现运行时动态设置上下文路径

Gradle学习笔记

内存分页法

Windows实时拓展架构-鸿道Intewell-win构型

Windows Ubuntu 目录映射关系