[大数据之Yarn]——资源调度浅学

2023-07-18 18:42:46

在hadoop生态越来越完善的背景下，集群多用户租用的场景变得越来越普遍，多用户任务下的资源调度就显得十分关键了。比如，一个公司拥有一个几十个节点的hadoop集群，a项目组要进行一个计算任务，b项目组要计算一个任务，集群到底先执行哪个任务？如果你需要提交1000个任务呢？这些任务又是如何执行的？

为了解决上面的问题，就需要在hadoop集群中引入资源管理和任务调度的框架。这就是——Yarn。

YARN的发展

Yarn在第一代的时候，框架跟hdfs差不多。一个主节点jobtracker，用来分配任务和监控任务运行情况；多个从节点tasktracker，用来执行真正的计算。

这种方式还是有一定的弊端的：

因此，就出现了第二代的YARN。

这种模式主要的特点，就是两个地方：

jobtracker被分离为两个角色，一个是resourcemanager，简称RM，仅仅负责任务的调度和应用的管理；一个是applicationmaster，简称AM，每个应用任务都会创建一个AM，用于申请任务需要的资源并且监控任务运行状况。

YARN的资源调度可以看官网提供的图片：

其中Resourcemanager里面一个很重要的东西，就是调度器Scheduler，调度规则可以使用官方提供的，也可以自定义。

capacity和fair share都是采用队列的模式，队列内部基本上还是FIFO。并且同级的队列任务，如果一个队列是空闲的，那么另一个队列任务可以使用资源；如果这个队列又提交了任务，则会抢占或者等待资源释放，直到资源到达预定的分配比例。

总的来说，YARN的资源调度还是比较完善的。