spark--使用MapPartitions

什麼是MapPartitions?

簡單的理解就是以分區爲單位的map函數,假如該分區有10000條數據,如果調用map函數的話,每次調用傳入一條數據,也就是需要調用10000次。但是如果調用MapPartitions函數的話,只需要調用一次就能把該分區的數據傳進去。

MapPartitions優勢

性能會高一些,特別適合類似於連接數據庫的場景

缺點

因爲要一次性加載分區內所有數據,容易造成oom

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章