当前位置: 首页 > news >正文

Shuffle流程

正常情况下都是走MegeSortShuffle流程,特别是预聚合类shuffle算子(比如reduceByKey),但是数据量多的情况下,整个排序过程较慢,导致整个shuffle过程较慢,并且因为底层用的是归并排序,中间会产生多个文件

如果满足①分区数量小于等于spark.shuffle.sort.bypassMergeThreshold(默认值200)②不是预聚合类shuffle算子(比如groupByKey),会采用ByPass MegeSortShuffle(不经过排序的Shuffle),底层不用经过排序,用Hash对Task生成的文件进行初步分区,后面再写入到一个data文件和index文件中,效率明显提高.

http://www.dtcms.com/a/245159.html

相关文章:

  • 【Linux系统编程】System V
  • 大模型呼叫系统——重塑学校招生问答,提升服务效能
  • 离线部署openstack 2024.1 neutron
  • 曼昆《经济学原理》第九版 第十八章生产要素市场
  • 离线部署openstack 2024.1 nova
  • 火山引擎大模型系列都有什么内容
  • Java高频面试之并发编程-27
  • Ubuntu24.04 onnx 模型转 rknn
  • 大语言模型智能体开发的技术框架与应用前景
  • 频域分析和注意力机制
  • 华测CGI-430配置
  • 离线部署openstack 2024.1 keystone
  • 计组刷题日记(1)
  • Python文件读写操作详解:从基础到实战
  • sssssssssssss
  • ConcurrentHashMap详解:原理、实现与并发控制
  • docker推荐应用汇总及部署实战
  • 基本多线程编译make命令
  • 离线部署openstack 2024.1 glance
  • LLM 系列(二) :基础概念篇
  • ThinkPad 交换 Ctrl 键和 Fn 键
  • shell 中的 expect工具
  • 通过知识整合重新审视医学图像检索|文献速递-深度学习医疗AI最新文献
  • MES生产工单管理系统,Java+Vue,含源码与文档,高效统筹生产流程,精准管控工单执行与进度
  • 离线部署openstack 2024.1控制节点glance
  • 理解什么是并查集
  • 语音合成之二十 VITS模型详解与MeloTTS实现
  • 力扣HOT100之贪心算法:55. 跳跃游戏
  • 大模型实战篇之ChatGPT(国内可以用)一、实现连续对话智能体
  • 利用高分辨率卫星遥感数据以更智能、更快速的方式勘测评估能源开采现场