7.spark mapPartition方法與map方法的區別

原創

挨踢正能量

2020-02-21 16:54

rdd的mapPartitions是map的一個變種，它們都可進行分區的並行處理。

兩者的主要區別是調用的粒度不一樣：map的輸入變換函數是應用於RDD中每個元素，而mapPartitions的輸入函數是應用於每個分區。

假設一個rdd有10個元素，分成3個分區。如果使用map方法，map中的輸入函數會被調用10次；而使用mapPartitions方法的話，其輸入函數會只會被調用3次，每個分區調用1次。

//生成10個元素3個分區的rdd a，元素值爲1~10的整數（1 2 3 4 5 6 7 8 9 10），sc爲SparkContext對象

val a = sc.parallelize(1 to 10, 3)

//定義兩個輸入變換函數，它們的作用均是將rdd a中的元素值翻倍

//map的輸入函數，其參數e爲rdd元素值

def myfuncPerElement(e:Int):Int = {

println("e="+e)

e*2

}

//mapPartitions的輸入函數。iter是分區中元素的迭代子，返回類型也要是迭代子

def myfuncPerPartition ( iter : Iterator [Int] ) : Iterator [Int] = {

println("run in partition")

var res = for (e <- iter ) yield e*2

res

}

val b = a.map(myfuncPerElement).collect

val c = a.mapPartitions(myfuncPerPartition).collect

在spark shell中運行上述代碼，可看到打印了3次run in partition，打印了10次e=。

從輸入函數（myfuncPerElement、myfuncPerPartition）層面來看，map是推模式，數據被推到myfuncPerElement中；mapPartitons是拉模式，myfuncPerPartition通過迭代子從分區中拉數據。

這兩個方法的另一個區別是在大數據集情況下的資源初始化開銷和批處理處理，如果在myfuncPerPartition和myfuncPerElement中都要初始化一個耗時的資源，然後使用，比如數據庫連接。在上面的例子中，myfuncPerPartition只需初始化3個資源（3個分區每個1次），而myfuncPerElement要初始化10次（10個元素每個1次），顯然在大數據集情況下（數據集中元素個數遠大於分區數），mapPartitons的開銷要小很多，也便於進行批處理操作。

mapPartitionsWithIndex和mapPartitons類似，只是其參數多了個分區索引號。

本文轉自：這裏

站內首發文章

挨踢正能量

發佈了13 篇原創文章 · 獲贊 25 · 訪問量 5萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

7.spark mapPartition方法與map方法的區別

mapPartitionsWithIndex和mapPartitons類似，只是其參數多了個分區索引號。

python gdal 安裝使用（Windows， python 3.6.8）

9.spark 指定相關的參數配置 num-executor executor-memory executor-cores

3.Kafka整體結構圖、Consumer與topic關係、Kafka消息分發、Consumer的負載均衡、Kafka文件存儲機制、Kafka partition segment等（來自學習資料）

4.6docker基礎詳細版--Dockerfile詳解

1.mysql中的左連接、內連接、右連接和全連接理解

10.spark executor

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結