当前位置：首页 > news >正文

Spark专题-第三部分：性能监控与实战优化（2）-分区优化

news 2025/10/3 7:29:03

这一篇不同于之前理论层面的讲解，会直接引入前段时间在工作中发现的问题，并配上思路和解决办法

问题回顾

事情的起因是一个批处理作业，在9月24号当天疯狂报错，原本凌晨就该结束的作业愣是拖到晚上
在这里插入图片描述

日志探查

那很自然会想到查看日志，找找报错的原因，这里就会通过之前提到的spark ui查看，也很自然的就能找到图中所提示的报错信息
在这里插入图片描述

Failure Reason: Job aborted due to stage failure
Task 1 in stage 46.0 failed 4 times
Reason: Couldn't form a bad node; couldn't: ASI, Y15450404805, 1654378, Q0_00043
compute-node-ZR1002T7.mm-sgps.com
Error code: I4E

这种类型的报错通常属于网络通信或资源管理类问题

resource_issues = ["内存不足导致GC overhead","磁盘空间耗尽","CPU资源竞争激烈", "网络带宽瓶颈","容器资源限制触发"
]

但如果是网络原因，不会只有这一个作业异常，于是我们便初步怀疑是资源不足导致的，而这些猜想需要继续通过spark ui找证据。
因为作业是通过提交spark sql的方式提交，所以我们当时想知道是哪段sql导致的报错，于是便去查看了SQL/DataFrame菜单，找到失败的语句
在这里插入图片描述
一路顺着数据流程往下找，发现了两个可疑的地方

14个亿的数据量，却只安排了2个partition处理，累死也算不出来
到sort算子部分就停止了
那此时的问题可能就出现在，用很少的分区去对极大的数据量进行排序，导致资源不足，出现报错

sql验证

当从日志里找出这些蛛丝马迹后，就该看看实际执行的sql能否和这些猜想对应上

where day between today(-2) and today(-1)
cluster by  day

从执行的sql里，我们发现了这样一句，每天会更新最近2天的数据，所以day值只会有2个，而cluster by day 这句就是罪魁祸首了，将14亿的数据按2个day分组，调用sort算子，导致资源不足作业失败

性能优化

定位问题后，一切就好解决了，直接将最后一句改成

DISTRIBUTE BY day, ceil(rand() * 100)

虽然还是2个day，但通过ceil(rand() * 100) 起到稀释加盐的作用，将数据打散，优化后再查看日志就会发现这里的分区数已经变大，作业也就顺利执行完成
在这里插入图片描述

查看全文

http://www.dtcms.com/a/434925.html

port-isolate 概念及题目

24.grep 使用手册

俄罗斯网站设计电商网站开发设计方案

在duckdb 1.4中编译和使用postgresql协议插件duckdb-pgwire

鸿蒙开发2--常用UI组件与@State状态管理入门

Spring Boot 配置属性松散绑定

重庆网站产品推广浙江省建设厅证书查询

【代码随想录day 32】力扣 509.斐波那契数列

工信部网站备案怎么登录青岛公司做网站的价格

C语言中的scanf函数（头文件、格式控制、取地址符号分析）

洛谷——P2437 蜜蜂路线

网页制作网站花店水头网站建设

在网站上做承诺书厦门在线制作网站

国家认可的赚钱平台东莞seo网络推广专

安装网站wordpress加个微信登录

在线音频三选一强制选择测试(3-AFC)

高斯消元矩阵

吉林网站优化路得威网站谁做的

神经网络之理解温度对Softmax的影响

做视频怎么去除网站个人网站代做

Linux中信号量semaphore的实现

广州网站推广公司建筑工程公司是干嘛的

ESP32驱动DHT11温湿度传感器详解

flask做的网站网址做网站推广有什么升职空间

网站上线过程做美团网站多少钱

微信分享网站短链接怎么做公司的介绍怎么写

算法分析：时间和空间复杂度

第6章串数组：稀疏矩阵的十字链表表示

【STM32项目开源】基于STM32的工地环境监测系统

手机登录网站怎么建设如何做一个网站代码

问题回顾

日志探查

sql验证

性能优化

相关文章：