Spark排序之SortByKey

2024-03-14 15:20:22

sortByKey函数作用于Key-Value形式的RDD，并对Key进行排序。

package com.test.spark

import org.apache.spark.{SparkConf, SparkContext}

/**

  * @author admin

  *  SortByKey:sortByKey对于key是单个元素排序很简单，

  *  如果key是元组如(X1，X2，X3.....)，它会先按照X1排序，若X1相同，则在根据X2排序，依次类推...

  */

object SparkSortByKeyApplication {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local").setAppName("SortByKey-test")

    val sc = new SparkContext(conf)

    val arr = Array((1, 6, 3), (2, 3, 3), (1, 1, 2), (1, 3, 5), (2, 1, 2))

    val rdd1 = sc.parallelize(arr)

    // 设置元素(e1,e3)为key,value为原来的整体

    val rdd2 = rdd1.map(e => ((e._1, e._3), e))

    // 利用sortByKey排序的对key的特性

    val rdd3 = rdd2.sortByKey()

    val rdd4 = rdd3.values.collect

    rdd4.foreach(println)

  }

}

码农公寓

相关文章