当前位置: 首页 > news >正文

由coalesce(1)OOM引发的coalesce和repartition理解

事件:最后输出文件就20MB,但是用coalesce(1)报错OOM

Task数量严格等于Stage内最后一个RDD的分区数

如果coalesce(1),你以为是数据都算好了再合并文件的。实际上,整个stage的并行度都变了,前面如果有where,各种花式map操作,都是由1个task来处理,很容易out of memory(比如where操作前数据量比较大,都集中在1个task里,哪怕结果文件就一点点)。

如果是repartition(1),这是自带shuffle的,自然就产生了下一个stage,shuffleq前的并行度完全不受影响,该干嘛干嘛,只是最后合成1个文件。自然就是很安全的。

所以对于coalesce,这是会增大内存开销的,谨慎用,确保安全情况用。实在不行用repartition也安全。

http://www.dtcms.com/a/267180.html

相关文章:

  • 3dmax一键烘焙很多张贴图合并成一张贴图插件支持fbx/obj/blender多材质模型合并为一张贴图
  • OneCode自主UI设计体系:架构解析与核心实现
  • web前端面试-- MVC、MVP、MVVM 架构模式对比
  • Vue.js TDD开发深度指南:工具链配置与精细化测试策略
  • 爬虫工程师Chrome开发者工具简单介绍
  • Kafka消息积压的多维度解决方案:超越简单扩容的完整策略
  • 牛客刷题 — 【排序】[NOIP2010] 导弹拦截(排序枚举)
  • 光伏发电园区管理系统 - Three.js + Django 实现方案
  • React Hooks全面解析:从基础到高级的实用指南
  • 【论文解读】Referring Camouflaged Object Detection
  • SqueezeBERT:计算机视觉能为自然语言处理在高效神经网络方面带来哪些启示?
  • 7月5日星期六今日早报简报微语报早读
  • 在服务器上配置MQ注意的问题
  • Gartner《Stream Processing: 新一代数据处理范式》学习报告
  • Flink-状态恢复-isRestore分析
  • 使用影刀RPA实现每日消防巡检提醒
  • 常见高危端口风险分析与防护指南
  • PostgreSQL表操作
  • Python Fabric库【系统管理工具】全面讲解
  • MQTT与HTTP在物联网中的比较:为什么MQTT是更好的选择
  • Go语言的web框架--gin
  • 【解决“此扩展可能损坏”】Edge浏览器(chrome系列通杀))扩展损坏?一招保留数据快速修复
  • 编译ADI NO-OS工程
  • 【机器学习实战笔记 14】集成学习:XGBoost算法(一) 原理简介与快速应用
  • 数据可视化:图表选择与Python实战指南
  • 大数据在UI前端的应用探索:基于用户行为分析的产品优化策略
  • error C2338: YOU_MIXED_MATRICES_OF_DIFFERENT_SIZES
  • 【Modern C++ Part3】Understand-decltype
  • 百度文心一言ERNIE-4.5-0.3B-PT开源大模型本地私有化部署
  • 2025使用VM虚拟机安装配置Macos苹果系统下Flutter开发环境保姆级教程--上篇