逻辑流图、作业图、执行图、物理图
本文重点
在flink中有逻辑流图、作业图、执行图、物理图四种图概念,它们在flink框架中生成的先后顺序为逻辑流图(StreamGraph)→ 作业图(JobGraph)→ 执行图(ExecutionGraph)→ 物理 图(Physical Graph)。本文我们将对这四种图进行一个详细的介绍,搞懂它们之间的关系和作用。
简述
逻辑流图:逻辑流图是最初始的一个图,它来源于程序员根据DataStream API 编写的流式计算程序,它定义了算子和算子之间的关系以及数据的流动方向。我们可以看到,逻辑流图中的节点,完全对应着代码中的四步算子操作: 源算子 Source(socketTextStream())→扁平映射算子 Flat Map(flatMap()) →分组聚合算子 Keyed Aggregation(keyBy/sum()) →输出算子 Sink(print())。
注意:在逻辑流图中只有算子(节点)和算子(节点)之间的关系,没有并行度的概念,就算算子的并行度为1000,在逻辑流图中也只是一个节点。
作业图: