原创 關於廣播變量和累加器

廣播變量(groadcast varible)爲只讀變量,使用廣播變量的好處:每個節點的executor有一個副本,不是每個task有一個副本,可以優化資源提高性能,比如機器學習的時候。累加器:累加器可以在各個executor之間共享,修

原创 Spark基礎API總結

1. keyValue(單個RDD操作)(1)collectAsMap(把keyvalue的類型轉換成Map,去掉重複的,後面覆蓋前面的)scala> val pairRDD = sc.paralleliz

原创 Key-Value類型的RDD的創建及基本轉換(1)

1. 創建一個基本的key-value的RDDscala> val kvPairRDD =      |   sc.parallelize(Seq(("key1", "value1"), ("key2", "value2"), ("key

原创 spark基礎編程API(collectAsMap/lookup)-(3)

1. collectAsMap:說明如下對於一個RDD來說,collectAsMap函數返回所有元素集合,不過該集合是去掉的重複的key的集合,如果元素重該復集合中保留的元素是位置最後的一組樣例:val pairRDD = sc.para