1. collectAsMap:说明如下
对于一个RDD来说,collectAsMap函数返回所有元素集合,不过该集合是去掉的重复的key的集合,如果元素重该复集合中保留的元素是位置最后的一组
样例:
val pairRDD = sc.parallelize[(Int, Int)](Seq((1, 2), (3, 4), (3, 6)), 2)
scala> val a = pairRDD.collectAsMap() a: scala.collection.Map[Int,Int] = Map(1 -> 2, 3 -> 6)
2. lookup:对于key-value类型的RDD,该函数可以取出相同的key的value值,组成一个集合seq
样例: val pairRDD = sc.parallelize[(Int, Int)](Seq((1, 2), (3, 4), (3, 6)), 2)
scala> pairRDD.lookup(3)
res0: Seq[Int] = WrappedArray(4, 6)