当前位置: 首页 > news >正文

Spark任务优化分析

一、背景

首先需要掌握 Spark DAG、stage、task的相关概念

Spark的job、stage和task的机制论述 - 知乎

task数量和rdd 分区数相关

二、任务慢的原因分析

找到运行时间比较长的stage

再进去看里面的task

可以看到某个task 读取的数据量明显比其他task 较大。

如果是sql 任务进入到 SQL 页面看到 对应的执行卡在哪里,然后分析,如下图是hash id、actor_name,可以看到是group by 数据有倾斜。

group by 数据倾斜问题,可以参考hive group by 数据倾斜问题同样处理思路。

https://zhugezifang.blog.csdn.net/article/details/127447167

相关文章:

  • css怎么实现文字描边
  • 【18】c++设计模式——>适配器模式
  • 力扣刷题 day40:10-10
  • uniapp微信小程序之分包异步化之组件分包
  • 17. 电话号码的字母组合
  • 深度学习DAY3:激活函数
  • 【RabbitMQ 实战】09 客户端连接集群生产和消费消息
  • Java架构师缓存架构设计解决方案
  • 小米、华为、iPhone、OPPO、vivo如何在手机让几张图拼成一张?
  • Qt开发学习笔记02
  • 面试之并查集
  • Ajax跨域访问,访问成功但一直走error不走success的的问题解决
  • 学习记忆——数学篇——案例——代数——方程——一元二次方程
  • 文生图3.0:添加背景图片 3个回车```文生图```
  • 京东数据分析平台:2023年8月京东奶粉行业品牌销售排行榜
  • Qt实现 图片处理器PictureEdit
  • Kafka日志索引详解以及生产常见问题分析与总结
  • AdaBoost(上):数据分析 | 数据挖掘 | 十大算法之一
  • 参与现场问题解决总结(Kafka、Hbase)
  • Hibernate验证用户提交对象信息
  • 交涉之政、交涉之学与交涉文献——《近代中外交涉史料丛书》第二辑“总序”
  • 深圳两家会所涉卖淫嫖娼各被罚7万元逾期未缴,警方发催告书
  • 浙江一民企拍地后遭政府两次违约,“民告官”三年又提起民事诉讼
  • 公安部部署“昆仑2025”专项工作,严打环食药等领域突出犯罪
  • “上海之帆”巡展在日本大阪开幕,松江区组织企业集体出展
  • 青岛双星名人集团管理权之争:公司迁址,管理层更迭