当前位置：首页 > news >正文

spark- ResultStage 和 ShuffleMapStage介绍

news 来源：原创 2025/5/30 15:35:08

- 1. ShuffleMapStage（中间阶段）
- - 1.1 作用
  - 1.2 核心特性
  - 1.3 示例
- 2. ResultStage（最终结果阶段）
- - 2.1 作用
  - 2.2 核心特性
  - 2.3 示例
- 3. 对比总结
- 4. 执行流程示例
- 5. 常见问题
- - Q1：为什么需要区分两种 Stage？**
  - Q2：如何手动观察 Stage 划分？
  - Q3：ShuffleMapStage 的数据一定会落盘吗？

在 Spark 的 DAG 调度模型中，Stage 被划分为 ResultStage 和 ShuffleMapStage 两类，它们的核心区别在于在计算流程中的角色和数据输出方式。以下是详细解析：

1. ShuffleMapStage（中间阶段）

1.1 作用

为后续 Stage 准备数据：负责处理 Shuffle 操作的上游数据，输出结果会被分区并写入磁盘（或内存），供下游 Stage 读取。
典型场景：所有需要 Shuffle 的操作（如 groupByKey、reduceByKey、join 等）。

1.2 核心特性

特性	说明
输出数据	写入 Shuffle 文件（存储在 Executor 本地或分布式存储）
依赖关系	可能有多个下游 Stage 依赖它（宽依赖）
任务类型	生成 `ShuffleMapTask`，任务完成后会返回 `MapStatus`（记录输出文件位置）
生命周期	临时性阶段，数据被下游消费后即可释放

1.3 示例

# 以下操作会生成 ShuffleMapStage
rdd = sc.parallelize([(1, "A"), (2, "B"), (1, "C")])
shuffled = rdd.groupByKey()  # 触发Shuffle

执行流程：

上游数据按 Key 分区 → 2. 写入本地 Shuffle 文件 → 3. 下游 Stage 拉取数据

2. ResultStage（最终结果阶段）

2.1 作用

生成最终结果：执行 Action 操作（如 count()、collect()、saveAsTextFile()），将计算结果返回 Driver 或写入外部存储。
典型场景：所有触发作业执行的 Action 操作。

2.2 核心特性

特性	说明

GEO革命：重新定义AI时代的内容规则

外网访问可视化工具 Grafana （Linux版本）

20250528-C#知识：函数简介及函数重载

【组件】跳动的图标动画

Linux软链接的目的

使用nvm use切换版本号，报exit status 5

图解 DeepSeek-R1【译】

人员睡岗检测算法AI智能分析网关V4打造工业/安防/交通等多场景应用方案

2025年北京市职工职业技能大赛第六届信息通信行业网络安全技能大赛复赛CTF部分WP-哥斯拉流量分析

06.概念二：神经网络

阿里云云效对接SDK获取流水线制品

mock库知识笔记（持续更新）

⚡ Linux 系统安装与配置 Vim 编辑器（包括 Vim 插件管理器）

【OSS】前端如何直接上传到OSS 上返回https链接，如果做到OSS图片资源加密访问

VTK|Z轴拉伸功能的实现

maven项目编译时复制xml到classes目录方案

2025-05-28 Python-List-二分法

第一节 51单片机概述

班级管理系统

vue 如何对 div 标签设置assets内本地背景图片

杭州网站设计步骤/北京搜索引擎优化管理专员

wordpress建站方法/最近营销热点

目录