Hadoop -YARN 应用程序设计概述

2023-10-05 10:18:58

一概述

应用程序是用户编写的处理数据的统称，它从YARN中申请资源完毕自己的计算任务。YARN自身相应用程序类型没有不论什么限制，它能够是处理短类型任务的MapReduce作业，也能够是部署长时间执行的服务的应用程序。应用程序能够向YARN申请资源完毕各类计算任务。

在YARN上开发一个应用程序，通常而言，须要开发两个组件，各自是client和ApplicationMaster，当中client主要作用是将应用程序提交到YARN上，并与YARN 和Application
Master进行交互，查询应用程序的状态，完毕用户发送的一些命令。而ApplicationMaster则负责向YARN申请资源，并与NodeManager通信以启动各个Container,此外ApplicationMaster还负责监控各个任务执行状态，并在失败的时候为其又一次申请资源。

YARN驱动使用“应用提交client（Application Submission Clien）”将一个“应用”提交给YARN资源管理器。借助“ClientRMProtocol”，client先获取一个新的“应用ID”，然后提交执行 “应用”。应用提交的信息里，包括应用Master要启动的Unix进程信息。提交信息还描写叙述了应用执行要使用的本地文件、jar包，执行须要的实际命令，
以及各种Unix环境设置等。

二 client设计

YARN applictionclient须要实现ApplicationClientProtocol协议，该协议提供一系列訪问接口供用户与YARN交互，包含提交Application、查询Application执行状态、改动Application的属性(优先级）、杀死应用程序等。当中最重要的訪问接口之中的一个是提交application的函数。通常涉及以下两个步骤：

步骤1：client创建一个ApplicationClientProtocol#getNewApplication从ResourceManager中获取唯一的一个APP ID.

步骤2：Client通过RPC函数ApplicaitonClientProtocol#submitApplication将Application Master提交到RM上。

一个功能完备的YARNclient，不仅须要与ResourceManger交互，还须要与ApplicationMaster交互以查询应用程序的内部状态（通常ResourceManager中没有与某个应用相关的信息）或者控制应用程序内部的任务(比方杀死任务，相同，ResourceManager中也不会有详细任务相关信息），这一部分须要由应用程序自己设计通信协议。

注：在实际使用中为了减轻ResourceManager的负载，一旦应用程序的ApplicationMaster成功启动之后，client通常直接与ApplicationMaster通信，以查询它的执行状态或者控制它的执行流程（比方杀死一个任务等）。

三 ApplicationMaster设计

AM须要与RM和NM两个服务交互，通过与RM交互，AM可获得任务计算所需的资源；通过与NM交互，AM能够启动计算任务，并监控它直到完毕。

AM-RM编写流程

AM与RM之间通信涉及三个步骤，详细例如以下：

1.注冊

AM启动的时候，首先向RM注冊，注冊信息封装到Protoclo Buffers消息RegisterApplicationMasterQuest中，主要包含一下字段：

a.host AM本次启动所在的结点host

b.rpc_host：AM本次启动对外的RPCport号

c.tracking_url:AM对外提供的追踪Web URL，client可通过该tracking_url查询应用程序运行状态。

注冊成功后会收到下面信息：

a.最大可申请的单个container占用的资源量。

b.client_to_am_token_master_key:ClientToAMTokenMasterKey

c.application_ACLs：应用程序訪问控制列表

2.资源申请

ApplicationMaster通过RPC函数ApplicationMasterProtocol#allocate向ResourceManager申请资源（以Container的形式).

请求数据格式主要包含下面字段：

2.1.ask： Application Master请求的资源列表，每一个资源请求用ResourceRequest表示，用户可使用AllocateRequest#getAskList/AllocateRequest#SetAskList获取或设置请求资源列表。

ResouceRequest包括已下字段：

a.priority:资源优先级，为一个正整数，值越小，优先级越高。

b.resource_name:期望资源所在的节点或者是机架，假设是"*",表示不论什么节点上的资源均能够。

c.capability:所需的资源量，当前支持CPU和内存两种资源

d.num_containers:所须要满足以上条件的资源数目

e.relax_locality:是否松弛本地性，即是否在没有满足节点本地性资源时，自己主动选择机架本地性资源或者其他资源。

2.2.release：AM释放container列表

2.3.response_id:本次通信的应答ID,每次通信，该值都会加1.

2.4.progress:应用程序的运行进度。

2.5.blacklist_request:请求增加/移除黑名单的结点列表

注：即使AM不须要不论什么的资源，它仍然须要周期性调用ApplicationProtoclo#allocate函数以维持与ResourceManager之间的心跳，否则，假设一定时间内RM未收到不论什么来自AM的消息，则系统会觉得它已经死掉了，会将其从系统中移除或者触发容错机制。AM每隔1000秒发送一次RPC资源请求。

响应信息例如以下：

a_m_command: ApplicationMaster需运行的命令，眼下主要有两个取值，各自是AM_RESYNC和AM_SHUTDOWN，分别表示重新启动和关闭。

当RM发现AM所在结点处于黑名单中时，RM让AM关闭。

response_id：本次通信的应答ID，每次通信，该值都会加一。

allocated_containers:分配给应用程序的Container列表。RM将每一份可用的资源封装成一个Container，该Container中有关于这份资源的具体信息，通常而言，ApplicationMaster在收到一个 Container后，会在这个Container中执行一个任务。

completed_container_statuses:执行完毕的Container状态列表，须要注意的是，该列表中的Container所处的状态可能是执行成功、执行失败和被杀死。

limit：眼下集群可用的资源总量

updated_nodes:当前集群中全部结点执行状态列表。

num_cluster_nodes:当前集群中可用节点总数

3.程序退出

AM通过RPC函数ApplicationMasterProtocol$finishApplicationMaster告诉RM应用程序运行完成，并退出。

AM-NM编写流程

1.AM将申请到的资源二次分配给内部的任务，并通过RPC函数ContainerManagementProtocol#startContainer与相应的NodeManger通信以启动Container(包括任务描写叙述、资源描写叙述等信息），该函数的參数类型为StartContainersRequest

2.为了掌握各个Container执行状态，AM会通过RPC函数向NM询问Container执行状态，一旦发现某个Container执行失败，AM可尝试又一次为相应的任务申请资源。

3.一旦一个Container执行完毕后，AM能够通过RPC函数ContainerManagementProtocol#stopContainer释放Container.

注： 1.YARN 是一个资源管理系统，它不仅要负责分配资源，还负责回收资源。当一个Container执行完后，它会主动确认Container是否将相应的资源释放掉了，也就是说，不论什么一个Container执行结束后，AM必须调用RPC函数ContainerManagementProtcol#stopContainer释放Container.

四小结

用户想要编写一个执行在YARN上的应用程序时，通常须要实现两个组件，各自是client和ApplicationMaster,当中client主要用于提交应用程序和管理应用程序，而ApplicationMaster则负责实现应用程序的任务切分、调度、监控等功能。

码农公寓

相关文章