当前位置：首页 > news >正文

Spark任务优化分析

news 2025/10/9 0:21:02

一、背景

首先需要掌握 Spark DAG、stage、task的相关概念

Spark的job、stage和task的机制论述 - 知乎

task数量和rdd 分区数相关

二、任务慢的原因分析

找到运行时间比较长的stage

再进去看里面的task

可以看到某个task 读取的数据量明显比其他task 较大。

如果是sql 任务进入到 SQL 页面看到对应的执行卡在哪里，然后分析，如下图是hash id、actor_name，可以看到是group by 数据有倾斜。

group by 数据倾斜问题，可以参考hive group by 数据倾斜问题同样处理思路。

https://zhugezifang.blog.csdn.net/article/details/127447167

css怎么实现文字描边

【18】c++设计模式——＞适配器模式

力扣刷题 day40：10-10

17. 电话号码的字母组合

深度学习DAY3:激活函数

Java架构师缓存架构设计解决方案

Qt开发学习笔记02

面试之并查集

Qt实现图片处理器PictureEdit

Hibernate验证用户提交对象信息

国微FPGA培训

云计算：常用系统前端与后端框架

岛屿的数量

BS EN 12104-2023 软木地砖检测

Flutter环境搭建及新建项目

【Git笔记】之Git重命名详解