当前位置：首页 > news >正文

Shuffle流程

news 2025/9/18 21:49:53

正常情况下都是走MegeSortShuffle流程，特别是预聚合类shuffle算子（比如reduceByKey），但是数据量多的情况下，整个排序过程较慢，导致整个shuffle过程较慢，并且因为底层用的是归并排序，中间会产生多个文件

如果满足①分区数量小于等于spark.shuffle.sort.bypassMergeThreshold（默认值200）②不是预聚合类shuffle算子（比如groupByKey），会采用ByPass MegeSortShuffle(不经过排序的Shuffle),底层不用经过排序，用Hash对Task生成的文件进行初步分区，后面再写入到一个data文件和index文件中,效率明显提高.

http://www.dtcms.com/a/245159.html

相关文章：

【Linux系统编程】System V

大模型呼叫系统——重塑学校招生问答，提升服务效能

离线部署openstack 2024.1 neutron

曼昆《经济学原理》第九版第十八章生产要素市场

离线部署openstack 2024.1 nova

火山引擎大模型系列都有什么内容

Java高频面试之并发编程-27

Ubuntu24.04 onnx 模型转 rknn

大语言模型智能体开发的技术框架与应用前景

频域分析和注意力机制

华测CGI-430配置

离线部署openstack 2024.1 keystone

计组刷题日记（1）

Python文件读写操作详解：从基础到实战

sssssssssssss

ConcurrentHashMap详解：原理、实现与并发控制

docker推荐应用汇总及部署实战

基本多线程编译make命令

离线部署openstack 2024.1 glance

LLM 系列（二）：基础概念篇

ThinkPad 交换 Ctrl 键和 Fn 键

shell 中的 expect工具

通过知识整合重新审视医学图像检索|文献速递-深度学习医疗AI最新文献

MES生产工单管理系统，Java+Vue，含源码与文档，高效统筹生产流程，精准管控工单执行与进度

离线部署openstack 2024.1控制节点glance

理解什么是并查集

语音合成之二十 VITS模型详解与MeloTTS实现

力扣HOT100之贪心算法：55. 跳跃游戏

大模型实战篇之ChatGPT（国内可以用）一、实现连续对话智能体

利用高分辨率卫星遥感数据以更智能、更快速的方式勘测评估能源开采现场