1 Flink 架构概览
1.1 Flink 架构概览 -Job
用户通过 DataStream API、DataSet API、SQL 和 Table API 编写 Flink 任务,它会生成一个 JobGraph。JobGraph 是由 source、map()、keyBy()/window()/apply() 和 Sink 等算子组成的。当 JobGraph 提交给 Flink 集群后,能够以 Local、Standalone、Yarn 和 Kubernetes 四种模式运行。1.2 Flink 架构概览 -JobManager
JobManager 的功能主要有: ●将 JobGraph 转换成 Execution Graph,最终将 Execution Graph 拿来运行; ●Scheduler 组件负责 Task 的调度; ●Checkpoint Coordinator 组 件 负 责 协 调 整 个 任 务 的 Checkpoint, 包 括Checkpoint 的开始和完成; ●通过 Actor System 与 TaskManager 进行通信; ●其它的一些功能,例如 Recovery Metadata,用于进行故障恢复时,可以从Metadata 里面读取数据。1.3 Flink 架构概览 -TaskManager
TaskManager 是负责具体任务的执行过程,在 JobManager 申请到资源之后开始启动。TaskManager 里面的主要组件有: ●Memory & I/O Manager,即内存 I/O 的管理; ●Network Manager,用来对网络方面进行管理; ●Actor system,用来负责网络的通信; TaskManager 被分成很多个 TaskSlot,每个任务都要运行在一个 TaskSlot里面,TaskSlot 是调度资源里的最小单位。2 Standalone
在介绍 Yarn 之前先简单的介绍一下 Flink Standalone 模式,这样有助于更好地了解 Yarn 和 Kubernetes 架构。 ●在 Standalone 模式下,Master 和 TaskManager 可以运行在同一台机器上,也可以运行在不同的机器上。 ●在 Master 进程中,Standalone ResourceManager 的作用是对资源进行管理。当用户通过 Flink Cluster Client 将 JobGraph 提交给 Master 时,JobGraph 先经过 Dispatcher。 ●当 Dispatcher 收 到 客 户 端 的 请 求 之 后, 生 成 一 个 JobManager。 接 着JobManager 进程向 Standalone ResourceManager 申请资源,最终再启动 TaskManager。 ●TaskManager 启动之后,会有一个注册的过程,注册之后 JobManager 再将具体的 Task 任务分发给这个 TaskManager 去执行。以上就是一个 Standalone 任务的运行过程。3 Flink 运行时相关组件
接下来总结一下 Flink 的基本架构和它在运行时的一些组件,具体如下: ●Client:用户通过 SQL 或者 API 的方式进行任务的提交,提交后会生成一个JobGraph。 ●JobManager:JobManager 接受到用户的请求之后,会对任务进行调度,并且申请资源启动 TaskManager。 ●TaskManager: 它 负 责 一 个 具 体 Task 的 执 行。TaskManager 向JobManager 进行注册,当 TaskManager 接收到 JobManager 分配的任务之后,开始执行具体的任务。