安装 Spark on Windows 使用 PySpark

Spark 高级版本对 python 的支持已经好很多了。喜欢用Python 的小伙伴也可以用Spark 来做高性能的数据分析!环境搭建步骤如下:

 

1. 安装Python

 

  • 下载Python 安装包(32 bit 也可以在 64 bit 机器上运行, 下载哪种都可以): https://www.python.org/downloads/
  • 安装并设置环境变量PATH: 把 python 安装的目录和 script 目录添加到环境变量 PATH  

  安装 Spark on Windows 使用 PySpark

  

  检查python 是否安装OK:

  安装 Spark on Windows 使用 PySpark

 

2. 安装 Spark

      安装 Spark on Windows 使用 PySpark   
  •   解压目录就是Spark 安装目录,所以为了 方便起见 可以把文件夹改名字为 Spark 即可。
  •   添加环境变量 SPARK_HOME
      安装 Spark on Windows 使用 PySpark
  •   添加 Spark bin 目录到环境变量 PATH

      安装 Spark on Windows 使用 PySpark

 

 

3 启动 Pyspark

  • 运行pyspark 启动 spark context:

    安装 Spark on Windows 使用 PySpark

    可以看到上面连个 ation 的运行记录: count 和 collect

    安装 Spark on Windows 使用 PySpark

 

 

 

 

上一篇:python – 如何在pySpark数据帧中添加行ID [复制]


下一篇:qt opencv编译错误 /usr/local/lib/libopencv_imgcodecs.so.3.1:-1: error: error adding symbols: DSO missing from command line