Spark_Map與MapPartition 的區別_未完待續

原創

高达一号

2020-06-16 14:08

參考文章：https://www.cnblogs.com/schoolbag/p/9640990.html

在Spark中有map和mapPartitions算子，處理數據上，有一些區別

主要區別：

map是對rdd中的每一個元素進行操作；

mapPartitions則是對rdd中的每個分區的迭代器進行操作

MapPartitions的優點：

如果是普通的map，比如一個partition中有1萬條數據。ok，那麼你的function要執行和計算1萬次。

使用MapPartitions操作之後，一個task僅僅會執行一次function，function一次接收所有
的partition數據。只要執行一次就可以了，性能比較高。如果在map過程中需要頻繁創建額外的對象(例如將rdd中的數據通過jdbc寫入數據庫,map需要爲每個元素創建一個鏈接而mapPartition爲每個partition創建一個鏈接),則mapPartitions效率比map高的多。

SparkSql或DataFrame默認會對程序進行mapPartition的優化。

總結：

MapPartiton 的性能較高

MapPartitions的缺點：

（未遇到過mapPartition OOM , 遇到的歡迎評論 !!!）

如果是普通的map操作，一次function的執行就處理一條數據；那麼如果內存不夠用的情況下，比如處理了1千條數據了，那麼這個時候內存不夠了，那麼就可以將已經處理完的1千條數據從內存裏面垃圾回收掉，或者用其他方法，騰出空間來吧。
所以說普通的map操作通常不會導致內存的OOM異常。 )

但是MapPartitions操作，對於大量數據來說，比如甚至一個partition，100萬數據，一次傳入一個function以後，那麼可能一下子內存不夠，但是又沒有辦法去騰出內存空間來，可能就OOM，內存溢出。

總結：

MapPartition 有可能會導致內存溢出，數據一次獲取過多！！

相應的案例

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark_Map與MapPartition 的區別_未完待續

主要區別：

MapPartitions的優點：

MapPartitions的缺點：

Kafka_Kafka速度爲什麼那麼快

Spark_Spark 中 checkpoint 的正確使用方式以及與 cache區別

HIVE_HIVE函數_窗口函數_LAG()/LEAD() 詳解

Java_多線程_創建多線程的4種方式與線程狀態

Spark_Map與MapPartition 的區別_未完待續

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結