Spark的Shuffle過程原

Shuffle過程分爲shuffle write和shuffle read。

由父RDD(比如join就是join兩邊的RDD)根據分區數進行劃分，並寫內存或磁盤，構成write過程。由子RDD(join之後生成的RDD，分區數由spark.default.parallelism控制)從父RDD那裏拉取數據到自己的分區構成read過程。

write就是Map細分的過程，而read就是Reduce合併的過程。Spark裏也存在combine過程，就是在父RDD的write的時候，在本地做一次合併，相當於一次Reduce，可以減少read過程讀取的數據量，減少網絡IO。Shuffle過程中，需保證同一個key落在同一個partion裏就可以了。

Shuffle又分爲hash shuffle和sort based shuffle，後者是對前者的改進，在spark的後期版本里，後者是默認選擇。

Hash shuffle與Sort based shuffle的區別在於Write過程不同，其Read過程完全一樣。在shuffle中，如果父RDD的分區數爲m，子RDD的分區數爲n，那麼Hash Shuffle在write過程中每個分區會寫n個文件，每個文件對應了子RDD的一個分區，這樣一共爲 m*n 個文件。而Sort based shuffle則與Hadoop MR的shuffle很像，父RDD的每個分區只會生成一個文件(文件中一個分區的數據是連續的)，同時會生成該文件的索引文件，索引文件可以明確指出子RDD分區所需要的數據在哪。

這樣Sort based shuffle的好處就在於它比Hash shuffle生成了更少的文件，shuffle過程中磁盤上不會累積大量數據文件，同時在文件生成過程中也不會佔用更多內存緩衝空間

update: 2017-03-25 增加了兩種shuffle的區別說明

歡迎閱讀轉載，轉載請註明出處：https://my.oschina.net/u/2539801/blog/758389

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark的Shuffle過程原

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

Dokcer部署Kafka集羣

nodejs學習06——小案例

Hive map階段優化之一次詳細的優化分析過程原

Kerberos的那些報錯彙總原

從源碼角度看Spark on yarn client & cluster模式的本質區別原薦

KMS密鑰管理服務(Hadoop) 原

ClassLoader和雙親委派機制原薦

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

Spark的Shuffle過程 原

Spark的Shuffle過程原