map与flatMap区别
map:
object keysTest{
def main(args: Array[String]): Unit = {
val conf: SparkConf = new SparkConf().setAppName("keysTest").setMaster("local[*]")
val sc = new SparkContext(conf)
val lines: RDD[String] = sc.textFile("G:/person.txt")
val words: RDD[Array[String]] = lines.map(_.split(" "))
}
}
以空格作为分隔符把一行文本(line)拆成一个个单词,拆分后得到的单词都封装到一个数组对象中,成为新的RDD(即words)的一个元素。例如,“hadoop is good”被拆分后,得到的“hadoop”,“is”,“good”三个单词,会被封装到一个数组对象中,即Array("hadoop","is","good"),成为words这个RDD的一个元素。
flatMap:
object keysTest{
def main(args: Array[String]): Unit = {
val conf: SparkConf = new SparkConf().setAppName("keysTest").setMaster("local[*]")
val sc = new SparkContext(conf)
val lines: RDD[String] = sc.textFile("G:/person.txt")
val unit: RDD[String] = lines.flatMap(_.split(" "))
}
}
flatMap()操作中意思是拍扁压平,就是把wordArray中每个RDD元素都拍扁成多个元素,最终这些被拍扁以后得到的元素,构成一个新的RDD,也就是unit。