1. collectAsMap:說明如下
對於一個RDD來說,collectAsMap函數返回所有元素集合,不過該集合是去掉的重複的key的集合,如果元素重該復集合中保留的元素是位置最後的一組
樣例:
val pairRDD = sc.parallelize[(Int, Int)](Seq((1, 2), (3, 4), (3, 6)), 2)
scala> val a = pairRDD.collectAsMap() a: scala.collection.Map[Int,Int] = Map(1 -> 2, 3 -> 6)
2. lookup:對於key-value類型的RDD,該函數可以取出相同的key的value值,組成一個集合seq
樣例: val pairRDD = sc.parallelize[(Int, Int)](Seq((1, 2), (3, 4), (3, 6)), 2)
scala> pairRDD.lookup(3)
res0: Seq[Int] = WrappedArray(4, 6)