Spark 高级版本对 python 的支持已经好很多了。喜欢用Python 的小伙伴也可以用Spark 来做高性能的数据分析!环境搭建步骤如下:
1. 安装Python
- 下载Python 安装包(32 bit 也可以在 64 bit 机器上运行, 下载哪种都可以): https://www.python.org/downloads/
- 安装并设置环境变量PATH: 把 python 安装的目录和 script 目录添加到环境变量 PATH
检查python 是否安装OK:
2. 安装 Spark
- 下载最新Spark Windows 解压即可(比如:spark-2.4.5-bin-hadoop2.7.tgz 如果没有解压软件请参见:https://www.cnblogs.com/yjyyjy/p/12731968.html:https://spark.apache.org/downloads.html
- 解压目录就是Spark 安装目录,所以为了 方便起见 可以把文件夹改名字为 Spark 即可。
- 添加环境变量 SPARK_HOME
- 添加 Spark bin 目录到环境变量 PATH
3 启动 Pyspark
- 运行pyspark 启动 spark context:
- 查看Web UI 跟踪 Job 运行情况:http://localhost:4040/jobs/
可以看到上面连个 ation 的运行记录: count 和 collect