Spark的框架

1.组成(主从结构)

client

提交应用的客户端

master(ResourceManager)

主节点,standalone模式时,为master;yarn模式时,为ResourceManager

worker(NodeManager)

从节点,standalone模式时,为worker;yarn模式时,为NodeManager

driver

负责协调应用提交后的一个分布式应用程序,包含一下内容:

(1)SparkContext

spark上下文环境,负责应用程序的生命周期

(2)RDD DAG

弹性分布式数据集,spark的计算单元,一组弹性分布式数据集,可以形成有向无环图

(3)DAG scheduler

根据应用构建基于stage(阶段)的有向无环图,并将stage提交给task scheduler

(4)Task scheduler

将包和文件进行序列化,task任务传送给worker上的executor执行

(5)SparkEnv

线程级别的上下文

  • SparkConf

       配置信息

  • BroadcastManager

      存储广播变量和元数据信息

 

2.流程

(1)client提交应用给master

(2)master发送指令给worker,worker收到指令,创建driver

(3)driver向master申请资源,并将应用转化等RDD graph

(4)DAG scheduler将RDD graph转化成基于stage的有向无环图

(5)Task scheduler将基于stage的有向无环图图转化成task,将文件和包序列化,传送给对应的worker上的executor执行。

 参考书籍:《循序渐进Spark》

上一篇:近日,OpenStack基金会宣布了第九次用户调查结果。 OpenStack用户调查是迄今为止全球


下一篇:ORACLE_OCP之Oracle Scheduler( ORACLE调度器)自动执行任务