take
top
takeOrdered 的使用
val spark = SparkSession
.builder
.master("local[*]")
.appName("TakeTakeOrderedTop")
.getOrCreate()
val sc = spark.sparkContext
// take, 不對數據進行排序,返回rdd 中從0到N 的下標表示的值
val rdd1 = sc.parallelize(Seq(11, 2, 30, 4, 9, 100,8,90,99,8), 4)
rdd1.take(90).foreach(println)
println("----------------------------")
// top 默認降序排序, 調用了takeOrder,
// def top(num: Int)(implicit ord: Ordering[T]): Array[T] = withScope {
// takeOrdered(num)(ord.reverse)
//}
val rdd2 = sc.makeRDD(Seq(11, 2, 30, 4, 9, -100,8,90,99,8), 8)
rdd2.top(100).foreach(println)
// 改變其默認排序方式
implicit val myOr = implicitly[Ordering[Int]].reverse
println("-------------------------")
rdd2.top(100).foreach(println)
// 特殊數據類型需要指定排序方式, 特殊數據,每一列的數據格式需要是相同的
val rdd3 = sc.parallelize(Array((1, 2, 3.0), (3, 2, 4.0), (1, 33, -5.0)))
rdd3.top(100)(Ordering.by[(Int, Int, Double), Double](_._3).reverse).foreach(println)
rdd3.top(100)(Ordering.by[(Int, Int, Double), Double](_._3)).foreach(println)
// takeOrder, 普通數據類型會自動向上轉型, 類似top, 默認是升序的
val rdd4 = sc.makeRDD(List(1, -22, 33, 44.0, 5, 99.0, 0.99))
rdd4.takeOrdered(9).foreach(println)