Tom,DataBase,80
Tom,Algorithm,50
Tom,DataStructure,60
Jim,DataBase,90
Jim,Algorithm,60
Jim,DataStructure,80
.......
根据给定的数据在spark-shell中通过编程来计算以下内容
(1) 该系总共有多少学生;
1
2
3
4
|
val lines = sc.textFile( "file:///usr/local/spark/sparksqldata/Data01.txt" )
val par = lines.map(row=>row.split( "," )(0))
val distinct_par = par.distinct() //去重操作
distinct_par.count //取得总数
|
答案为:265 人
(2) 该系共开设来多少门课程;
1
2
3
4
|
val lines = sc.textFile( "file:///usr/local/spark/sparksqldata/Data01.txt" )
val par = lines.map(row=>row.split( "," )(1)) //根据,切分的每行数据的第二列进行map
val distinct_par = par.distinct() //去重
distinct_par.count //取总数
|
答案为 8 门
(3) Tom 同学的总成绩平均分是多少;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
val lines = sc.textFile( "file:///usr/local/spark/sparksqldata/Data01.txt" )
val pare = lines.filter(row=>row.split( "," )(0)== "Tom" )
pare. foreach (println)
Tom,DataBase,26 Tom,Algorithm,12 Tom,OperatingSystem,16 Tom,Python,40 Tom,Software,60 pare.map(row=>(row.split( "," )(0),row.split( "," )(2).toInt))
.mapValues(x=>(x,1)). //mapValues是对值的操作,不操作key使数据变成(Tom,(26,1))
reduceByKey((x,y) => (x._1+y._1,x._2 + y._2)) //接着需要按key进行reduce,让key合并当将Tom进行reduce后 这里的(x,y) 表示的是(26,1)(12,1)
.mapValues(x => (x._1 / x._2)) //接着要对value进行操作,用mapValues()就行啦
.collect() //res9: Array[(String, Int)] = Array((Tom,30)) |
Tom 同学的平均分为 30 分
(4) 求每名同学的选修的课程门数;
1
2
3
|
val lines = sc.textFile( "file:///usr/local/spark/sparksqldata/Data01.txt" )
val pare = lines.map(row=>(row.split( "," )(0),row.split( "," )(1)))
pare.mapValues(x => (x,1)) //数据变为(Tom,(DataBase,1)),(Tom,(Algorithm,1)),(Tom,(OperatingSystem,1)),<em id="__mceDel"><em id="__mceDel"><em id="__mceDel">(Tom,(Python,1)),</em></em></em><em id="__mceDel" style="line-height: 1.5;"><em id="__mceDel"><em id="__mceDel"><em id="__mceDel"><em id="__mceDel">(Tom,(Software,1))</em></em></em></em></em>
|
1
|
.reduceByKey((x,y) => ( " " ,x._2 + y._2)) //<em id="__mceDel" style="line-height: 1.5;">数据变为(Tom,( ,5))</em>
|
1
|
.mapValues(x =>x._2)<em id= "__mceDel" style= "line-height: 1.5;" > //<em id="__mceDel">数据变为(Tom, 5)</em></em>
|
1
|
<br>. foreach (println)
|
1
|
|
答案共 265 行
(5) 该系 DataBase 课程共有多少人选修
1
2
3
4
|
val lines = sc.textFile( "file:///usr/local/spark/sparksqldata/Data01.txt" )
val pare = lines.filter(row=>row.split( "," )(1)== "DataBase" )filter方法允许你提供一个判断条件(函数),来过滤集合元素
pare.count res1: Long = 126 |
答案为 126 人
(6) 各门课程的平均分是多少;
1
2
3
4
5
|
val lines = sc.textFile( "file:///usr/local/spark/sparksqldata/Data01.txt" )
val pare = lines.map(row=>(row.split( "," )(1),row.split( "," )(2).toInt))
pare.mapValues(x=>(x,1)).reduceByKey((x,y) => (x._1+y._1,x._2 + y._2)).mapValues(x => (x._1 / x._2)).collect() res0: Array[(String, Int)] = Array((Python,57), (OperatingSystem,54), (CLanguage,50), (Software,50), (Algorithm,48), (DataStructure,47), (DataBase,50), (ComputerNetwork,51)) |
答案为: (CLanguage,50) (Python,57) (Software,50) (OperatingSystem,54) (Algorithm,48) (DataStructure,47) (DataBase,50) (ComputerNetwork,51)
(7)使用累加器计算共有多少人选了 DataBase 这门课。
1
2
3
4
5
6
|
val lines = sc.textFile( "file:///usr/local/spark/sparksqldata/Data01.txt" )
val pare = lines.filter(row=>row.split( "," )(1)== "DataBase" ).map(row=>(row.split( "," )(1),1))
val accum = sc.longAccumulator( "My Accumulator" ) //累加器函数Accumulator
pare.values. foreach (x => accum.add(x))
accum.value res19: Long = 126 |
答案:共有 126 人
2.编写独立应用程序实现数据去重
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
|
对于两个输入文件 A 和 B,编写 Spark 独立应用程序,对两个文件进行合并,并剔除其 中重复的内容,得到一个新文件 C。下面是输入文件和输出文件的一个样例,供参考。 输入文件 A 的样例如下: 20170101 x 20170102 y 20170103 x 20170104 y 20170105 z 20170106 z 输入文件 B 的样例如下: 20170101 y 20170102 y 20170103 x 20170104 z 20170105 y 根据输入的文件 A 和 B 合并得到的输出文件 C 的样例如下: 20170101 x 20170101 y 20170102 y 20170103 x 20170104 y 20170104 z 20170105 y 20170105 z 20170106 z |
eclipse代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
|
package my.scala import org.apache.spark.{SparkConf, SparkContext} object case2 {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setMaster( "local" ).setAppName( "reduce" )
val sc = new SparkContext(conf)
sc.setLogLevel( "ERROR" )
//获取数据
val two = sc.textFile( "hdfs://192.168.85.128:9000/quchong" )
two.filter(_.trim().length>0) //需要有空格。
.map(line=>(line.trim, "" )) //全部值当key,(key value,"")
.groupByKey() //groupByKey,过滤重复的key value ,发送到总机器上汇总
.sortByKey() //按key value的自然顺序排序
.keys.collect(). foreach (println) //所有的keys变成数组再输出
//第二种有风险
two.filter(_.trim().length>0)
.map(line=>(line.trim, "1" ))
.distinct()
.reduceByKey(_+_)
.sortByKey()
. foreach (println)
//reduceByKey,在本机suffle后,再发送一个总map,发送到一个总机器上汇总,(汇总要压力小)
//groupByKey,发送本机所有的map,在一个机器上汇总(汇总压力大)
//如果数据在不同的机器上,则会出现先重复数据,distinct,reduceBykey,只是在本机上去重,谨慎一点的话,在reduceByKey后面需要加多一个distinct
}
} |
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
|
3.编写独立应用程序实现求平均值问题 每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生 名字,第二个是学生的成绩;编写 Spark 独立应用程序求出所有学生的平均成绩,并输出到 一个新文件中。下面是输入文件和输出文件的一个样例,供参考。 Algorithm 成绩: 小明 92 小红 87 小新 82 小丽 90 Database 成绩: 小明 95 小红 81 小新 89 小丽 85 Python 成绩: 小明 82 小红 83 小新 94 小丽 91 平均成绩如下: (小红,83.67)
(小新,88.33)
(小明,89.67)
(小丽,88.67) |
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
|
package my.scala import org.apache.spark.{SparkConf, SparkContext} object pingjunzhi {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setMaster( "local" ).setAppName( "reduce" )
val sc = new SparkContext(conf)
sc.setLogLevel( "ERROR" )
val fourth = sc.textFile( "hdfs://192.168.85.128:9000/pingjunzhi" )
val res = fourth.filter(_.trim().length>0).map(line=>(line.split( "\t" )(0).trim(),line.split( "\t" )(1).trim().toInt)).groupByKey().map(x => {
var num = 0.0
var sum = 0
for (i <- x._2){
sum = sum + i
num = num +1
}
val avg = sum/num
val format = f "$avg%1.2f" .toDouble
(x._1,format)
}).collect. foreach (x => println(x._1+ "\t" +x._2))
}
} |