Spark面試題（八）——Spark的Shuffle配置調優

Spark系列面試題

1、Shuffle優化配置 `-spark.shuffle.file.buffer`

默認值：32k
參數說明：該參數用於設置shuffle write task的BufferedOutputStream的buffer緩衝大小。將數據寫到磁盤文件之前，會先寫入buffer緩衝中，待緩衝寫滿之後，纔會溢寫到磁盤。
調優建議：如果作業可用的內存資源較爲充足的話，可以適當增加這個參數的大小（比如64k），從而減少shuffle write過程中溢寫磁盤文件的次數，也就可以減少磁盤IO次數，進而提升性能。在實踐中發現，合理調節該參數，性能會有1%~5%的提升。

2、Shuffle優化配置 `-spark.reducer.maxSizeInFlight`

默認值：48m
參數說明：該參數用於設置shuffle read task的buffer緩衝大小，而這個buffer緩衝決定了每次能夠拉取多少數據。
調優建議：如果作業可用的內存資源較爲充足的話，可以適當增加這個參數的大小（比如96m），從而減少拉取數據的次數，也就可以減少網絡傳輸的次數，進而提升性能。在實踐中發現，合理調節該參數，性能會有1%~5%的提升。

3、Shuffle優化配置 `-spark.shuffle.io.maxRetries`

默認值：3
參數說明：shuffle read task從shuffle write task所在節點拉取屬於自己的數據時，如果因爲網絡異常導致拉取失敗，是會自動進行重試的。該參數就代表了可以重試的最大次數。如果在指定次數之內拉取還是沒有成功，就可能會導致作業執行失敗。
調優建議：對於那些包含了特別耗時的shuffle操作的作業，建議增加重試最大次數（比如60次），以避免由於JVM的full gc或者網絡不穩定等因素導致的數據拉取失敗。在實踐中發現，對於針對超大數據量（數十億~上百億）的shuffle過程，調節該參數可以大幅度提升穩定性。

4、Shuffle優化配置 `-spark.shuffle.io.retryWait`

默認值：5s
參數說明： shuffle read task從shuffle write task所在節點拉取屬於自己的數據時，如果因爲網絡異常導致拉取失敗，是會自動進行重試的，該參數代表了每次重試拉取數據的等待間隔，默認是5s。
調優建議：建議加大間隔時長（比如60s），以增加shuffle操作的穩定性。

5、Shuffle優化配置 `-spark.shuffle.memoryFraction`

默認值：0.2
參數說明：該參數代表了Executor內存中，分配給shuffle read task進行聚合操作的內存比例，默認是20%。
調優建議：在資源參數調優中講解過這個參數。如果內存充足，而且很少使用持久化操作，建議調高這個比例，給shuffle read的聚合操作更多內存，以避免由於內存不足導致聚合過程中頻繁讀寫磁盤。在實踐中發現，合理調節該參數可以將性能提升10%左右。

6、Shuffle優化配置 `-spark.shuffle.manager`

默認值：sort
參數說明：該參數用於設置ShuffleManager的類型。Spark 1.5以後，有三個可選項：hash、sort和tungsten-sort。HashShuffleManager是Spark 1.2以前的默認選項，但是Spark 1.2以及之後的版本默認都是SortShuffleManager了。tungsten-sort與sort類似，但是使用了tungsten計劃中的堆外內存管理機制，內存使用效率更高。
調優建議：由於SortShuffleManager默認會對數據進行排序，因此如果你的業務邏輯中需要該排序機制的話，則使用默認的SortShuffleManager就可以；而如果你的業務邏輯不需要對數據進行排序，那麼建議參考後面的幾個參數調優，通過bypass機制或優化的HashShuffleManager來避免排序操作，同時提供較好的磁盤讀寫性能。這裏要注意的是，tungsten-sort要慎用，因爲之前發現了一些相應的bug。

7、Shuffle優化配置 `-spark.shuffle.sort.bypassMergeThreshold`

默認值：200
參數說明：當ShuffleManager爲SortShuffleManager時，如果shuffle read task的數量小於這個閾值（默認是200），則shuffle write過程中不會進行排序操作，而是直接按照未經優化的HashShuffleManager的方式去寫數據，但是最後會將每個task產生的所有臨時磁盤文件都合併成一個文件，並會創建單獨的索引文件。
調優建議：當你使用SortShuffleManager時，如果的確不需要排序操作，那麼建議將這個參數調大一些，大於shuffle read task的數量。那麼此時就會自動啓用bypass機制，map-side就不會進行排序了，減少了排序的性能開銷。但是這種方式下，依然會產生大量的磁盤文件，因此shuffle write性能有待提高。

8、Shuffle優化配置 `-spark.shuffle.consolidateFiles`

默認值：false
參數說明：如果使用HashShuffleManager，該參數有效。如果設置爲true，那麼就會開啓consolidate機制，會大幅度合併shuffle write的輸出文件，對於shuffle read task數量特別多的情況下，這種方法可以極大地減少磁盤IO開銷，提升性能。
調優建議：如果的確不需要SortShuffleManager的排序機制，那麼除了使用bypass機制，還可以嘗試將spark.shffle.manager參數手動指定爲hash，使用HashShuffleManager，同時開啓consolidate機制。在實踐中嘗試過，發現其性能比開啓了bypass機制的SortShuffleManager要高出10%~30%。

總結：

1、spark.shuffle.file.buffer：主要是設置的Shuffle過程中寫文件的緩衝，默認32k，如果內存足夠，可以適當調大，來減少寫入磁盤的數量。
2、spark.reducer.maxSizeInFight：主要是設置Shuffle過程中讀文件的緩衝區，一次能夠讀取多少數據，如果內存足夠，可以適當擴大，減少整個網絡傳輸次數。
3、spark.shuffle.io.maxRetries：主要是設置網絡連接失敗時，重試次數，適當調大能夠增加穩定性。
4、spark.shuffle.io.retryWait：主要設置每次重試之間的間隔時間，可以適當調大，增加程序穩定性。
5、spark.shuffle.memoryFraction：Shuffle過程中的內存佔用，如果程序中較多使用了Shuffle操作，那麼可以適當調大該區域。
6、spark.shuffle.manager：Hash和Sort方式，Sort是默認，Hash在reduce數量比較少的時候，效率會很高。
7、spark.shuffle.sort. bypassMergeThreshold：設置的是Sort方式中，啓用Hash輸出方式的臨界值，如果你的程序數據不需要排序，而且reduce數量比較少，那推薦可以適當增大臨界值。
8、spark. shuffle.cosolidateFiles：如果你使用Hash shuffle方式，推薦打開該配置，實現更少的文件輸出。

Spark面試題（八）——Spark的Shuffle配置調優

Spark系列面試題

1、Shuffle優化配置 `-spark.shuffle.file.buffer`

2、Shuffle優化配置 `-spark.reducer.maxSizeInFlight`

3、Shuffle優化配置 `-spark.shuffle.io.maxRetries`

4、Shuffle優化配置 `-spark.shuffle.io.retryWait`

5、Shuffle優化配置 `-spark.shuffle.memoryFraction`

6、Shuffle優化配置 `-spark.shuffle.manager`

7、Shuffle優化配置 `-spark.shuffle.sort.bypassMergeThreshold`

8、Shuffle優化配置 `-spark.shuffle.consolidateFiles`

總結：

數倉建模—建模工具PdMan(CHINER)介紹

第05講：Flink SQL & Table 編程和案例

Hive實戰—時間滑動窗口計算

數倉建模—指標體系

Hive實戰UDF 外部依賴文件找不到的問題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

Spark面試題（八）——Spark的Shuffle配置調優

Spark系列面試題

1、Shuffle優化配置 -spark.shuffle.file.buffer

2、Shuffle優化配置 -spark.reducer.maxSizeInFlight

3、Shuffle優化配置 -spark.shuffle.io.maxRetries

4、Shuffle優化配置 -spark.shuffle.io.retryWait

5、Shuffle優化配置 -spark.shuffle.memoryFraction

6、Shuffle優化配置 -spark.shuffle.manager

7、Shuffle優化配置 -spark.shuffle.sort.bypassMergeThreshold

8、Shuffle優化配置 -spark.shuffle.consolidateFiles

總結：

1、Shuffle優化配置 `-spark.shuffle.file.buffer`

2、Shuffle優化配置 `-spark.reducer.maxSizeInFlight`

3、Shuffle優化配置 `-spark.shuffle.io.maxRetries`

4、Shuffle優化配置 `-spark.shuffle.io.retryWait`

5、Shuffle優化配置 `-spark.shuffle.memoryFraction`

6、Shuffle優化配置 `-spark.shuffle.manager`

7、Shuffle優化配置 `-spark.shuffle.sort.bypassMergeThreshold`

8、Shuffle優化配置 `-spark.shuffle.consolidateFiles`