当前位置: 首页 > news >正文

Flink 优化-数据倾斜

一、判断是否存在数据倾斜

        相同 Task 的多个 SubTask 中,个别 SubTask 接收到的数据量明显大于其他 SubTask 接收到的数据量,通过 Flink Web UI 可以精确地看到每个 SubTask 处理了多少数据,即可判断出 Flink 任务是否存在数据倾斜。通常数据倾斜也会引起反压。

        另外,有时 Checkpoint detail 里不同的 SubTask 的 State size 也是一个分析数据倾斜的有用指标。

二、数据倾斜的解决方案

2.1 keyBy 之前发生数据倾斜

        如果 keyBy 之前就存在数据倾斜,上有算子的某些实例可能处理的数据较多,某些实例可能处理的数据较少,产生该情况可能是因为数据源的数据本身就不均匀,例如某些原因 kafka 的 topic 中某些 partition 的数据量较大,某些 partition 的数据量较小。对于不存在 keyBy 的 Flink 任务也会出现这种情况。这时需要然 Flink 任务强制进行 shuffle。使用 shuffle、rebalance 或 rescale 算子即可将数据均匀分配,从而解决数据倾斜的问题。

2.2 keyBy 后的聚合操作存在数据倾斜

查看 Web UI,情况如下:

2.2.1 为什么不能直接用二次聚合来处理?

 

http://www.dtcms.com/a/565717.html

相关文章:

  • 遵义网站网站建设江阴便宜做网站
  • 大模型RLHF:PPO原理与源码解读
  • Mojo变量知识点解读
  • Linux之rsyslog(2)输入输出配置
  • 整体设计 全面梳理复盘 之17 三套表制表的支持和支撑以及编程基础 之2
  • 凯文·凯利《2049:未来10000天的可能》
  • 网站百度建设高端网站设计百家号
  • ctypes.pythonapi.PyThreadState_SetAsyncExc作用详解
  • pyside6常用控件: QPushButton()按钮切换、带图片的按钮
  • Python逻辑运算符
  • MinGW下载、安装和使用教程(附安装包,适合新手)
  • lol做任务领头像网站微商城网站建设平台
  • 百日挑战——单词篇(第十二天)
  • (单调队列、ST 表)洛谷 P2216 HAOI2007 理想的正方形 / P2219 HAOI2007 修筑绿化带
  • Spark RDD 编程从驱动程序到共享变量、Shuffle 与持久化
  • 网站 面包屑网站开发工作流审批流
  • 网站建设广金手指六六十四在线建站系统
  • 排序还有分页
  • electron对于图片/视频无法加载的问题
  • TDengine 字符串函数 CHAR 用户手册
  • 股票信息收集系统设计
  • 深圳网站建设 设计首选公司红色扁平化网站
  • 深度学习PINN!从入门到精通!
  • 电子商务网站建设内容新手开店适合开什么店
  • Java 后端面试干货:四大核心模块高频考点深度解析
  • 交换机路由器基础(三)--常见接口、线缆和器件
  • Qt笔记:QtAdvancedStylesheet使用时,关于url(icon:/primary/checklist_invert.svg)的疑惑
  • 亚远景-ISO/PAS 8800在软件定义汽车(SDV)时代的AI安全治理角色
  • 网站开发前端和后端技术简单的微信小程序项目
  • 企业电子商务网站的建设方式百度网站首页提交入口