spark配置历史服务

修改spark-defaults.conf.template文件名
 mv spark-defaults.conf.template spark-defaults.conf
修改spark-default.conf文件,配置日志存储路径
spark.eventLog.enabled          true
spark.eventLog.dir               hdfs://Hadoop102:8020/directory

注意:需要启动hadoop集群
(hadoop102: start-dfs.sh hadoop103: start-yarn.sh)
(后面学习配置群起脚本,之后补充笔记))
HDFS上的directory目录需要提前存在。

8020为你的master主机端口号可在Hadoop安装目录下的core.site.xml文件中查看

sbin/start-dfs.sh
hadoop fs -mkdir /directory
修改spark-env.sh文件, 添加日志配置
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.fs.logDirectory=hdfs://Hadoop102:8020/directory -Dspark.history.retainedApplications=30"

参数1含义:WEBUI访问的端口号为18080
参数3含义:指定保存Application历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,这个是内存中的应用数,而不是页面上显示的应用数。

分发配置文件
xsync conf 
重新启动集群和历史服务
sbin/start-all.sh
sbin/start-history-server.sh
重新执行任务
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
 ./examples/jars/spark-examples_2.12-3.0.0.jar \
10

spark配置历史服务

查看历史服务:http://Hadoop102:18080

spark配置历史服务

上一篇:mr-robot


下一篇:linux的一些命令