当前位置: 首页 > news >正文

Flink框架:算子链的介绍

本文重点

在Flink中,算子链(Operator Chain)是一种优化技术,用于将多个算子连接在一起形成一个链式结构,以减少数据序列化和网络传输开销,提高整体的处理性能。

流的两种传输模式

数据在算子之间的传输模式有两种:一对一(one-to-one)的直通 (forwarding)模式和重分区(redistributing)模式。

一对一

一对一模式下,数据流维护着分区以及元素的顺序,也就是说同一分区的数据只会进入到下游算子的同一分区。如图所示,source算子和map算子之间就是一对一的关系。map算子的子任务输出数据以及顺序和source算子的子任务输出的数据以及顺序是完全一致的,从而保证着“一对一”的关系。map、filter、flatMap 等算子都是这种 one-to-one 的对应关系。

要想满足一对一,首要前提是两个算子间的并行度要是一样的。

重分区

重分区模式下,数据流的分区会发生改变,上游的数据会进入到下游的不同分区中。如图所示map() 和 keyBy/window 之间,以及 keyBy/window 和 Sink 之间就是重分区关系。每个算子子任务也会根据不同的 transfor

http://www.dtcms.com/a/347017.html

相关文章:

  • 梯度下降(线性回归为例)
  • 深度学习入门:神经网络
  • 【KO】前端面试题六
  • Idea中 lombok 在“测试类中-单元测试”运行失败及解决方法
  • 怎样避免游戏检测到云手机?
  • C++矩阵类设计与实现:高效、健壮的线性代数工具
  • 文字学的多维透视:从符号系统到文化实践
  • 解密 Kubernetes 权限管理:supplementalGroups 的魔力与 fsGroup 的选择
  • Linux服务器systemd服务配置详细指南
  • 【线程池】ThreadPoolTaskExecutor和redis的配置案例
  • 《UE教程》第一章第十一回——UE5.6打包安卓
  • Python 字符串查找,计数,判断,修改
  • Linux服务器利用Systemd配置定时任务
  • 手机横屏适配方案
  • Python 实战:内网渗透中的信息收集自动化脚本(2)
  • Python爬虫实战:构建港口物流数据采集和分析系统
  • 英伟达显卡GPU驱动的本质
  • Ubuntu 的 apt-get 强制使用 IPv4 网络
  • rust语言 (1.88) egui (0.32.1) 学习笔记(逐行注释)(九)数值拖拽控件、进度条、滑动条
  • JupyterLab在线调试实验室
  • 【C语言16天强化训练】从基础入门到进阶:Day 7
  • 【Github】SourceTree远端链接Github
  • 173-基于Flask的微博舆情数据分析系统
  • Dism++备份系统时报错[句柄无效]的解决方法
  • 大模型训练方法全面解析:SFT、RFT、TRPO、DPO、PPO、GRPO、RLH、RLHF技术深度剖析
  • chromadb使用hugging face模型时利用镜像网站下载注意事项
  • SQL Server Service Broker超全介绍
  • linux内核 - slab 分配器
  • 微信小程序界面常用操作
  • 【200页PPT】IT战略规划架构设计报告(附下载方式)