spark history-server的使用

2023-07-27 22:25:52

为什么需要historyServer?

在运行Spark Application的时候，Spark会提供一个WEBUI列出应用程序的运行时信息；但该WEBUI随着Application的完成(成功/失败)而关闭，也就是说，Spark Application运行完(成功/失败)后，将无法查看Application的历史记录。

Spark history Server就是为了应对这种情况而产生的，通过配置可以在Application执行的过程中记录下了日志事件信息，那么在Application执行结束后，WEBUI就能重新渲染生成UI界面展现出该Application在执行过程中的运行时信息。

historyServer需要在spark-defaults.conf中开启(如果log存于hdfs上，则需先开启hdfs)

设置spark.eventLog.enabled为 true并且设置记录spark事件的目录：

spark.eventLog.dir表示存放spark事件的地址，可以存在hdfs也可以存在本地file上

同时还要在spark-env.sh中配置读取spark事件目录地址

其中spark.history.ui.port是web UI端口默认为18080,spark.history.retainedApplications是存放个内存中的日志个数（官网说明和源码中的说明有出入，以源码为准）,spark.history.fs.logDirectory是读取spark事件的地址。

其余配置信息可以去spark官网查看。

最后在spark/sbin下执行start-history-server.sh 默认端口为18080

启动后如图所示:

存放spark事件的目录(我存在hdfs中)，其中有你的环境变量信息，spark版本号等信息

historyServer界面，里面有app运行的详细信息（GC，shuffle,task运行的详细信息等）

Tip1：driver在SparkContext使用stop()方法后才将完整的信息提交到指定的目录，如果不使用stop（）方法，即使在指定目录中产生该应用程序的目录，history server也将不会加载该应用程序的运行信息。在最后加上一行sc.stop()后，就可以显示。

Tip2：以spark.history开头的需要配置在spark-env.sh中的SPARK_HISTORY_OPTS，以spark.eventLog开头的配置在spark-defaults.conf。

码农公寓

相关文章