当前位置: 首页 > news >正文

spark任务的提交流程

目录

    • spark任务的提交流程
      • 1. 资源申请与初始化
      • 2. 任务划分与调度
      • 3. 任务执行
      • 4. 资源释放与结果处理
      • 附:关键组件协作示意图
      • 扩展说明

SparkContext介绍

spark任务的提交流程

  1. 用户创建一个 Spark Context
  2. Spark Context 去找 Cluster Manager 申请资源同时说明需要多少 CPU 和内存等资源;
  3. Cluster Manager 根据用户提交时设置的参数(CPU、内存),去找 WorkerNode 并启动 Executor,并介绍 Executor 给Driver;
  4. Driver 会将用户程序划分为不同的 stage每个 stage 会有一组完全相同的 task 来构成。这些 task 会作用于一些待处理的数据和不同的分区,在阶段划分和 task 创建完成后Driver 会向 Executor 发送 task
  5. Executor 在接收到 task 后会下载 task 运行时的依赖准备好 task 的运行环境,然后开始执行 task 并实时将 task 的运行环境传输给 Driver;
  6. Driver 根据收到的 task 的运行情况来进行状态更新,不断的调用 task 来交给 Executor 执行,直到 task 全部执行正确。若超过最大重试次数还没有执行成功,就会停止 task。

1. 资源申请与初始化

  • 用户创建SparkContext(SC),SC向集群管理器(如YARN或Standalone Master)申请资源,指定CPU和内存需求
  • 集群管理器根据参数分配资源:
    • Standalone模式:Master直接管理Worker节点,创建Executor并注册到SC
    • YARN模式:RM创建ApplicationMaster(AM),AM通过NodeManager(NM)申请容器资源启动Executor

2. 任务划分与调度

  • Driver(即SC所在进程)将用户程序解析为DAG图,根据宽依赖(ShuffleDependency)划分Stage
    • 宽依赖触发Shuffle操作,形成ShuffleMapStage
    • 窄依赖合并为ResultStage
  • 每个Stage被拆分为多个Task,每个Task对应一个数据分区的处理逻辑

3. 任务执行

  • Executor接收Task后:
    1. 下载任务依赖的代码和数据
    2. 创建线程池并行执行Task
    3. 实时向Driver汇报执行进度和状态
  • 任务失败时自动重试,超过最大重试次数则作业失败

4. 资源释放与结果处理

  • 所有Task执行完成后:
    • Driver生成最终结果(如写入存储系统)
    • SC向集群管理器释放资源
    • 在YARN模式中,AM会主动注销应用

附:关键组件协作示意图

相关文章:

  • 大数据Spark(五十九):Standalone集群部署
  • 【大模型】SpringBoot 整合Spring AI 对接主流大模型平台实战详解
  • 前端单点登录
  • 【Linux笔记】——线程同步信号量与环形队列生产者消费者模型的实现(PV操作)
  • BigemapPro蒙版使用技巧:精准导出地图范围
  • 2025年AI搜索引擎发展洞察:技术革新与市场变革
  • 代码随想录算法训练营 Day52 图论Ⅲ 岛屿问题Ⅱ 面积 孤岛 水流 造岛
  • 基于AutoDL市场下的Pycharm远程控制
  • window 显示驱动开发-GDI 硬件加速
  • 驱动开发硬核特训 · Day 31:理解 I2C 子系统的驱动模型与实例剖析
  • 每日Prompt:双重曝光
  • 软考中级软件设计师——计算机网络 IP地址与子网掩码相关题型
  • 亚远景-汽车软件开发的“升级之路”:ASPICE各等级说明
  • 汽车充电过程中--各个电压的关系(DeepSeek)
  • Vue+eElement ui el-input输入框 type=number 输入无效。赋值输入框也不显示(问题已解决)
  • 新能源汽车焊接智能节气阀
  • 46 python pandas
  • 2025 年暑假 LBE 大空间市场火爆程度预测:技术驱动与消费升级下的增长引擎
  • JavaSenderMail发送邮件(QQ及OFFICE365)
  • 指令烧录ORIN NANO操作系统
  • 华住集团:第一季度盈利8.94亿元,同比增长超三成
  • 4月中国常青游戏榜:32款游戏吸金近34亿元,腾讯、网易占半壁江山,《原神》再跌出前十
  • 杨国荣︱以经验说事:思想史研究中一种需要反思的现象
  • 不赚“快钱”的佳沛:蒋时杰解密新西兰国果如何在中国“慢养”出43亿生意
  • 美国前总统拜登确诊前列腺癌
  • 西浦国际教育创新论坛举行,聚焦AI时代教育本质的前沿探讨