当前位置: 首页 > news >正文

pyspark并行性能提升经验

pyspark并行性能提升经验

  • 前言
  • 一、数据问题
    • 1、分区均衡
    • 2、数据读取优化
  • 二、函数差异
  • 三、资源配置

前言

在pyspark实践过程中遇到了形形色色的性能瓶颈问题,有的是数据问题,有的是资源配置问题,有的是函数使用差异,有的是参数配置.下面就一一对这些问题进行阐述与经验总结,以便为后续的应用提供宝贵意见参考.

一、数据问题

数据问题应该是最常见的问题了,但总是没有办法一网打净,因为每次遇到的数据可能都不一样,因此具体情况具体分析,下面呈现的是目前遇到过的几种数据导致运行性能问题的情况.

1、分区均衡

下方表是核心耗时task运行在不同executor的情况分布,图是整个任务运行在excutor上的分布,首先从图上可以看到各executor的结束时间差异很大,最早的在5点多结束,最晚的在9点多结束,最慢与最快差了4个小时,同时查看其日志,核心耗时的task在各excutor上的运行情况,可以看到表最后一行读取的数据大小,差出来两倍.
在这里插入图片描述
在这里插入图片描述
定位到原因后,梳理代码,定位其优化位置,下面是核心耗时task执行代码,可以看到sql读取数据后写入临时表,然后按’zone_code’分区进行模型预测.这里首先要确定原始分区数,其分区字段,以及zone_code目标数有多少,方便重新进行分区.

data = spark.sql(df_sq
http://www.dtcms.com/a/482039.html

相关文章:

  • HTML盒子模型详解
  • 个人电脑做网站违法吗东莞市住建局官网
  • 下载selenium-ide及使用
  • [Spark] 事件总线机制
  • 长春建站公众号wordpress4.7中文主题
  • 6.string的模拟实现(三)
  • AQS 为什么采用抽象类(abstract class)而不是接口(interface)实现?
  • stable-diffusion-webui / stable-diffusion-webui-forge部署
  • 阿里云和聚名网的域名注册安全性如何?
  • 别让链表兜圈子——力扣141.环形链表
  • 济南网站推广公司做二手网站的用意
  • 专业的汽车媒体发稿怎么选
  • 事务消息(Transactional Message)
  • 北京网站开发周期专业的传媒行业网站开发
  • 高频使用RocksDB DeleteRange引起的问题及优化
  • for是什么意思?从foreign、forest谈起
  • 网站开发设计工程师网上注册公司申请入口
  • ARM 总线技术 —— AHB
  • .NET 程序自动更新的回忆总结
  • 自然语言处理笔记
  • 通州网站建设如何做信用网站截图
  • 网站空间控制网络服务采购
  • 方法合集——第七章
  • 定制衣柜厂柔性生产:客户需求拆解、板材切割与组装工序协同路径
  • 厦门外贸网站建设 之家wordpress菜单与顶部互换
  • openrewrite 的rewrite.yml 编写注意事项
  • 系统架构的平衡之道
  • 考研10.2笔记
  • Linux:传输层协议
  • 北京做网站建设的公司有哪些优化网站哪个好