环境搭建(Spark)

Spark环境搭建

Linux环境搭建

  1. 安装VMWare

  2. 在VMWare中使用镜像创建Ubuntu,Ubuntu用户名使用自己的名字缩写
    环境搭建(Spark)
    下图用户名就是Ubuntu的名称,可以自己随意改。(考核要求改为自己名字缩写)
    环境搭建(Spark)
    这里建议2个处理器,2个内核,运行速度快
    环境搭建(Spark)
    内存建议2G
    环境搭建(Spark)
    下面默认
    环境搭建(Spark)
    硬盘建议60G(我一开始20G,后续根据实验需求,发现20G小了,还得在虚拟机里面改,虽然可以后期改,但比较麻烦,所以这里建议直接设置60G)
    环境搭建(Spark)
    最后完成点击确认
    环境搭建(Spark)
    到此,Ubuntu装完了。下面可以安装传输文件FileZilla和XSell了,虽然我不常用这两个文件,因为我用的版本是可以直接从win上复制到Ubuntu中的,所以用的次数很少。
    这两个安装包百度网盘我放在hadoop环境搭建里。有需要可自行下载。

  3. 安装传输文件的软件FileZilla,并使用该软件由win向Ubuntu传输文件

  4. 安装连接虚拟机的软件Xshell,远程控制Ubuntu

Hadoop环境搭建

Hadoop环境搭建完整流程点击下方链接,参照另一篇博客,写得很详细:
hadoop和spark环境搭建完整流程

Spark环境搭建

链接如上,在上面的连接中spark安装到最后一步,可以进行shell验证成功后,接下来就是安装pyspark。
在Ubuntu终端主目录下,pip3 install pyspark

注意的点:安装pyspark时,先查看现有的pip版本是多少pip -version,pip10.0.0或者pip10.0.1的下载的pyspark包做后期实验都不会出错,如果是8.x版本或者21.x版本的pip下载的pyspark包大概率的都有问题不能用。

所以这里建议先更新pip到10.0.1/10.0.0版本之后,再去install pyspark

实现与Pycharm对接

当pyspark包下载好之后,需要在Windows中下载专业版pycharm(建议2019版本)。

对接详细过程请移步:实现win10系统下pycharm与ubuntu的对接

在这篇博客中,只关注整个pycharm里面的对接流程就可以了。
如果出错的话,可以参照建议进行解决,在解决问题之前,希望能够先整体浏览一下文章(因为后面有更新,有些错误地解决办法也有更新。)

上一篇:PySpark之SparkStreaming基本操作


下一篇:pyspark系列2-linux安装pyspark