RDD编程初级实践

  •  

  • 1.pyspark交互式编程

本作业提供分析数据data.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示:

Tom,DataBase,80

Tom,Algorithm,50

Tom,DataStructure,60

Jim,DataBase,90

Jim,Algorithm,60

Jim,DataStructure,80

……

请根据给定的实验数据,在pyspark中通过编程来计算以下内容:

  • 该系总共有多少学生;

1.创建RDD

2.拆分每行记录,取出每行的第一个元素

3.去除文件中的重复记录

4.统计所有会重复记录。

RDD编程初级实践

  • 该系共开设了多少门课程;

1.创建RDD

2.拆分每行记录,取出每行的第一个元素

3.去除文件中的重复记录

4.统计所有会重复记录。

RDD编程初级实践

  • Tom同学的总成绩平均分是多少;

1.提取Tom的每门成绩,并转化为int类型

2.统计Tom的课程数

3.统计Tom的总成绩

RDD编程初级实践

RDD编程初级实践

  • 求每名同学的选修的课程门数;

1.创建RDD

2.求出学生每门课程对应(学生姓名,1),学生有n门课程,则有n个学生

3.按学生姓名为key,获取每个学生的课程总数

4.按照学生姓名分组,统计他们选课程数。

RDD编程初级实践

  • 该系DataBase课程共有多少人选修;

1.创建RDD

2.选定课程DataBase

3.输出结果

RDD编程初级实践

  • 各门课程的平均分是多少;

1.创建RDD

2.为每门课程的分数后面新增一列,表示一个学生选择了该门课程

3.按课程名称统计总分数和选课人数

4.求平均分

RDD编程初级实践

  • 使用累加器计算共有多少人选了DataBase这门课。

1.创建RDD

2.选定课程DataBase

3.使用累加器计算

RDD编程初级实践

2.编写独立应用程序实现数据去重

对于两个输入文件A和B,编写Spark独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。本文给出门课的成绩(A.txt、B.txt)下面是输入文件和输出文件的一个样例,供参考。

输入文件A的样例如下:

20200101    x

20200102    y

20200103    x

20200104    y

20200105    z

20200106    z

输入文件B的样例如下:

20200101    y

20200102    y

20200103    x

20200104    z

20200105    y

根据输入的文件A和B合并得到的输出文件C的样例如下:

20200101    x

20200101    y

20200102    y

20200103    x

20200104    y

20200104    z

20200105    y

20200105    z

20200106    z

 

实验步骤如下:

  • 当前目录为/usr/local/spark/sparksqldata/,在当前目录下新建一个C.py文件
  • RDD编程初级实践

  • RDD编程初级实践

     

  • 向C.py文件写入内容如下:
  • RDD编程初级实践

     

  • 在目录为/usr/local/spark/sparksqldata/下执行下面命令执行程序.(注意运行前缀为python8,若使用python3,可能会运行显示不成功。)
  • RDD编程初级实践

  • 在目录/usr/local/spark/sparksqldata/result下即可得到结果文件part-00000。
  • RDD编程初级实践

    结果

  •  

  • RDD编程初级实践

    RDD编程初级实践

     

 

   

3.编写独立应用程序实现求平均值问题

每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生名字,第二个是学生的成绩;编写Spark独立应用程序求出所有学生的平均成绩,并输出到一个新文件中。本文给出门课的成绩(Algorithm.txt、Database.txt、Python.txt),下面是输入文件和输出文件的一个样例,供参考。

Algorithm成绩:

小明 92

小红 87

小新 82

小丽 90

Database成绩:

小明 95

小红 81

小新 89

小丽 85

Python成绩:

小明 82

小红 83

小新 94

小丽 91

平均成绩如下:

    (小红,83.67)

    (小新,88.33)

    (小明,89.67)

(小丽,88.67)

实验步骤如下:

  • 当前目录为/usr/local/spark/mycode/avgscore,在当前目录下新建一个avgscore.py,并将数据文件“Algorithm.txt、Database.txt、Python.txt”放入该文件夹下。
  • RDD编程初级实践

  • RDD编程初级实践

  •  
  • 向avgscore.py文件写入内容如下:
  • RDD编程初级实践

  •  
  • 在目录为/usr/local/spark/mycode/avgscore下执行如图命令执行程序.(注意运行前缀为python3.8,若使用python3,可能会运行显示不成功。)
  • RDD编程初级实践

  • RDD编程初级实践

  • 4.结果。 

RDD编程初级实践

 

上一篇:大数据复习提纲


下一篇:RDD编程初级实践