05 RDD编程

一、词频统计:

读文本文件生成RDD lines

05 RDD编程
将一行一行的文本分割成单词 words flatmap()

05 RDD编程

全部转换为小写 lower()

05 RDD编程

去掉长度小于3的单词 filter()
去掉停用词

05 RDD编程

 

 

 

转换成键值对 map()

05 RDD编程

统计词频 reduceByKey()

05 RDD编程

按字母顺序排序 sortBy(f)

05 RDD编程

按词频排序 sortByKey()

05 RDD编程

 

 

结果文件保存 saveAsTextFile(out_url)

05 RDD编程

 

 

二、学生课程分数案例

总共有多少学生?map(), distinct(), count()

05 RDD编程

开设了多少门课程?

05 RDD编程

每个学生选修了多少门课?map(), countByKey()

05 RDD编程

每门课程有多少个学生选?map(), countByValue()

05 RDD编程

Tom选修了几门课?每门课多少分?filter(), map() RDD

05 RDD编程


Tom选修了几门课?每门课多少分?map(),lookup() list

05 RDD编程

 

 


Tom的成绩按分数大小排序。filter(), map(), sortBy()

05 RDD编程

Tom的平均分。map(),lookup(),mean()
05 RDD编程

 

 


 

上一篇:python的六个标准类型


下一篇:06 RDD编程