Flink Job 执行流程

Flink是一个分布式流处理框架，可以用于实时流处理和批处理任务。在理解Flink Job的执行流程之前，我们先来了解一下Flink的基本概念。

Job：Flink中的任务，由一系列的操作符（Operators）组成，用于处理输入数据并生成输出数据。
Task：Job在集群上的执行单元，一个Job会被分为多个相互依赖的Task，每个Task在一个TaskManager上并行执行。
Operator：执行特定操作的算子，可以是源（Source）、转换（Transformation）或汇（Sink）操作。例如，将数据从外部系统读取到Flink中是使用Source算子，对数据进行转换和处理是使用Transformation算子，将数据发送到外部系统是用的Sink算子。
Parallelism：任务并行度，表示任务或算子的并行执行的度量。
Slot：TaskManager中的资源分配单位，每个Slot可以执行一个任务。
Checkpoint：在流处理中，为了保证数据处理的一致性和故障恢复能力，Flink会定期将任务的状态保存到外部存储系统中，这个过程就是Checkpoint。
Savepoint：是Checkpoint的一种特殊形式，可以用于在任务执行中保存任务的状态，以便可以在需要时重新启动或回滚任务。

Flink Job的执行流程可以概括为：Job提交 -> Job图生成 -> 任务调度与分配 -> Task执行。

Job提交：用户通过命令行或API将Job提交给Flink集群执行。
Job图生成：Flink会将提交的Job转换为有向无环图（DAG），该图会表示Job的执行计划。图中的节点表示算子，边表示数据流。
任务调度与分配：Flink会将Job图划分为一个个子任务，每个子任务被分配到一个TaskManager中的Slot上。Flink会根据算子之间的依赖关系，进行任务的调度和分配。
Task执行：TaskManager根据分配到的任务运行相应的Task。Task会从输入的数据流中获取数据，并通过所定义的算子对数据进行处理。处理结果会发送到下游的任务中。TaskManager会将任务的执行进度和状态发送给JobManager，以便触发Checkpoint保存状态。任务之间可能存在数据分区、数据并行处理或动态任务调整等情况。
Checkpoint：Flink会定期触发Checkpoint保存任务的状态到持久化存储中。在发生故障时，Flink可以通过已保存的状态来恢复任务的执行。
任务完成：当Job中的所有任务都执行完毕后，Job被标记为完成。

本文对Flink Job的执行流程进行了详细的介绍。了解Flink Job的执行流程对于开发Flink应用程序以及排查和解决问题都是非常重要的。Flink提供了很多调优参数和策略，可以根据实际场景进行灵活配置。同时，Flink还具备很好的故障恢复能力，能够保证数据处理的一致性和可靠性。

本文来自极简博客，作者：琉璃若梦，转载请注明原文链接：Flink Job 执行流程