Spark 的 shell 是一个强大的交互式数据分析工具。
1. 搭建Spark
2. 两个目录下面有可执行文件:
bin 包含spark-shell 和 spark-submit
sbin 包含
- sbin/start-master.sh:在机器上启动一个master实例
- sbin/start-slaves.sh:在每台机器上启动一个slave实例
- sbin/start-all.sh:同时启动一个master实例和所有slave实例
- sbin/stop-master.sh:停止master实例
- sbin/stop-slaves.sh:停止所有slave实例
- sbin/stop-all.sh:停止master实例和所有slave实例
注意,这些脚本必须在你的Spark master运行的机器上执行,而不是在你的本地机器上面。
3.在 Spark 目录里运行spark-shell 和 spark-submit:
./bin/spark-shell
./bin/spark-submit 可以在集群上启动应用程序。
3. Spark SQL的入口是 SQLContext类或者它的子类:
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
HiveContext:
从SQLContext继承而来,它增加了在MetaStore中发现表以及利用HiveSql写查询的功能.
4. Graphx 的打印输出 output
graph.vertices.collect.foreach(println(_))
graph.edges.collect.foreach(println(_))
5. Spark 配置
Spark提供三个位置用来配置系统:
- Spark properties控制大部分的应用程序参数,可以用SparkConf对象或者java系统属性设置
- Environment variables可以通过每个节点的
conf/spark-env.sh
脚本设置每台机器的设置。例如IP地址 - Logging可以通过log4j.properties配置