文章 切分 累加单词出现次数

 1 package com.zhoukao2
 2 
 3 import org.apache.spark.{SparkConf, SparkContext}
 4 
 5 
 6 object Demo3 {
 7   def main(args: Array[String]): Unit = {
 8     //创建sparkConf对象
 9     val sparkConf = new SparkConf().setAppName("Demo3").setMaster("local")
10     //创建SparkContext
11     val sc = new SparkContext(sparkConf)
12 
13     val rdd01 = sc.textFile("D:\\IDEA_Maven\\zhoukao2\\src\\main\\resources\\WordCount.txt")
14     //2)将文章内容进行切分成字符串(5分)
15     val rdd02 = rdd01.flatMap(_.split(" "))
16     /*.map((_,5)).reduceByKey(_+_)*/
17     // rdd02.foreach(println(_))
18     //过滤出spark开头的字符串(5分)       5)将处理结果进行累加(5分)
19     val rdd3 = rdd02.filter(_.contains("spark")).map((_, 1)).reduceByKey(_ + _).foreach(println(_))
20 
21     sc.stop()
22     //    rdd3.collect()
23 
24   }
25 
26 }

 

上一篇:python Spyder界面无法打开的解决方法


下一篇:Spark入门(四)Idea远程提交项目到spark集群