修改spark-defaults.conf.template文件名
mv spark-defaults.conf.template spark-defaults.conf
修改spark-default.conf文件,配置日志存储路径
spark.eventLog.enabled true
spark.eventLog.dir hdfs://Hadoop102:8020/directory
注意:需要启动hadoop集群
(hadoop102: start-dfs.sh hadoop103: start-yarn.sh)
(后面学习配置群起脚本,之后补充笔记))
HDFS上的directory目录需要提前存在。
8020为你的master主机端口号可在Hadoop安装目录下的core.site.xml文件中查看
sbin/start-dfs.sh
hadoop fs -mkdir /directory
修改spark-env.sh文件, 添加日志配置
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.fs.logDirectory=hdfs://Hadoop102:8020/directory -Dspark.history.retainedApplications=30"
参数1含义:WEBUI访问的端口号为18080
参数3含义:指定保存Application历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,这个是内存中的应用数,而不是页面上显示的应用数。
分发配置文件
xsync conf
重新启动集群和历史服务
sbin/start-all.sh
sbin/start-history-server.sh
重新执行任务
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10