spark的安装简单,去官网下载与集群hadoop版本相一致的文件即可。
解压后,主要需要修改spark-evn.sh文件。
以spark standlone为例,配置dn1,nn2为master,使用zookeeper的方式进行HA。
配置如下:
export JAVA_HOME=/app/jdk17079
export SCALA_HOME=/app/scala2105
export SPARK_MASTER_IP=nn2
export SPARK_WORKER_MEMORY=512m
export HADOOP_CONF_DIR=/app/cdh23502/etc/hadoop/
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=1 SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=nn1:2181,nn2:2181,dn1:2181 $SPARK_DAEMON_JAVA_OPTS"
在dn1节点上,需要注意,把SPARK_MASTER_IP替换为dn1即可。否则在dn1上启动master会失败.
启动服务(dn1):
/app/spark151/sbin/start-all.sh
然后在nn2上启动:/app/spark151/sbin/start-master.sh
即可。
webui:默认的地址是:dn1:8080
提交任务:
spark-submit --master spark://dn1:7077,nn2:7077 \
--executor-memory 256M \
--class org.apache.spark.examples.SparkPi \
/app/spark151/lib/spark-examples*.jar 10