当前位置: 首页 > news >正文

Shuffle流程

正常情况下都是走MegeSortShuffle流程,特别是预聚合类shuffle算子(比如reduceByKey),但是数据量多的情况下,整个排序过程较慢,导致整个shuffle过程较慢,并且因为底层用的是归并排序,中间会产生多个文件

如果满足①分区数量小于等于spark.shuffle.sort.bypassMergeThreshold(默认值200)②不是预聚合类shuffle算子(比如groupByKey),会采用ByPass MegeSortShuffle(不经过排序的Shuffle),底层不用经过排序,用Hash对Task生成的文件进行初步分区,后面再写入到一个data文件和index文件中,效率明显提高.

相关文章:

  • 【Linux系统编程】System V
  • 大模型呼叫系统——重塑学校招生问答,提升服务效能
  • 离线部署openstack 2024.1 neutron
  • 曼昆《经济学原理》第九版 第十八章生产要素市场
  • 离线部署openstack 2024.1 nova
  • 火山引擎大模型系列都有什么内容
  • Java高频面试之并发编程-27
  • Ubuntu24.04 onnx 模型转 rknn
  • 大语言模型智能体开发的技术框架与应用前景
  • 频域分析和注意力机制
  • 华测CGI-430配置
  • 离线部署openstack 2024.1 keystone
  • 计组刷题日记(1)
  • Python文件读写操作详解:从基础到实战
  • sssssssssssss
  • ConcurrentHashMap详解:原理、实现与并发控制
  • docker推荐应用汇总及部署实战
  • 基本多线程编译make命令
  • 离线部署openstack 2024.1 glance
  • LLM 系列(二) :基础概念篇
  • 网站站建设建设中页中页/优化设计三年级上册语文答案
  • 万网域名网站建设/百度导航下载安装手机导航
  • 威海网站建设兼职/花都网络推广seo公司
  • 郑州建站模板厂家/地推团队接单平台
  • 学做网站论坛会员/seo网站推广教程
  • 网站站内logo怎么做/搜索引擎营销的四种方式