shuffle原理及優化策略

1、shuffle操作原理：

在Spark中，數據通常不會跨分區分佈，以滿足特定操作的需要。在計算期間，單
個任務將對單個分區進行操作——因此，要組織單個reduceByKey 的計算任務要執行
的所有數據，Spark需要執行一個all-to-all操作。它必須從所有分區中讀取所有
鍵的所有值，然後將所有分區的值放在一起計算每個鍵的最終結果——這稱爲shuffle。
 
Spark中的某些操作會觸發稱爲shuffle的事件。shuffle是Spark用於重新分發數據
的機制，以便跨分區對數據進行不同的分組。這通常涉及跨執行程序和機器複製數據，
使shuffle成爲一項複雜而昂貴的操作。在Spark Core中,Shuffle是劃分寬窄依賴
依據Stage的依據

寬依賴：一對多 （有shuffle操作）
窄依賴：一對一 或者多對一

2、 Shuffle操作問題解決

2.1 數據傾斜原理

在進行shuffle的時候，必須將各個節點上相同的key拉取到某個節點上的一個task
來進行處理，此時如果某個key對應的數據量特別大的話，就會發生數據傾斜
（在實際生產中去null值是必須的）

2.2 數據傾斜問題發現與解決

通過Spark Web UI來查看當前運行的stage各個task分配的數據量，從而進一步確定
是不是task分配的數據不均勻導致了數據傾斜。
知道數據傾斜發生在哪一個stage之後，接着我們就需要根據stage劃分原理，推算出
來發生傾斜的那個stage對應代碼中的哪一部分，這部分代碼中肯定會有一個shuffle
類算子。
通過countByKey查看各個key的分佈。

2.3 數據傾斜解決方案

2.3.1 過濾少數導致傾斜的key
2.3.2 提高shuffle操作的並行度
2.3.3 局部聚合和全局聚合

案例<一>：採樣傾斜key並分拆join操作（join的兩表都很大，但僅一個RDD的幾個key的數據量過大）
方案實現思路：
對包含少數幾個數據量過大的key的那個RDD，通過sample算子採樣出一份樣本來，然後統計一下每個key的數量，計算出來數據量最大的是哪幾個key。
然後將這幾個key對應的數據從原來的RDD中拆分出來，形成一個單獨的RDD，並給每個key都打上n以內的隨機數作爲前綴，而不會導致傾斜的大部分key形成另外一個RDD。
接着將需要join的另一個RDD，也過濾出來那幾個傾斜key對應的數據並形成一個單獨的RDD，將每條數據膨脹成n條數據，這n條數據都按順序附加一個0~n的前綴，不會導致傾斜的大部分key也形成另外一個RDD。
再將附加了隨機前綴的獨立RDD與另一個膨脹n倍的獨立RDD進行join，此時就可以將原先相同的key打散成n份，分散到多個task中去進行join了。
而另外兩個普通的RDD就照常join即可。
最後將兩次join的結果使用union算子合併起來即可，就是最終的join結果。

案例<二>使用隨機前綴和擴容RDD進行join(RDD中有大量的key導致數據傾斜)
方案實現思路：
　　將含有較多傾斜key的RDD擴大多倍，與相對分佈均勻的RDD配一個隨機數。　
4 spark shuffle參數調優

spark.shuffle.file.buffer

默認值：32k
參數說明：該參數用於設置shuffle write task的
BufferedOutputStream的buffer緩衝大小。將數據寫到磁盤文件之前，會先寫入
buffer緩衝中，待緩衝寫滿之後，纔會溢寫到磁盤。

調優建議：

如果作業可用的內存資源較爲充足的話，可以適當增加這個參數的大小（比如64k），
從而減少shuffle write過程中溢寫磁盤文件的次數，也就可以減少磁盤IO次數，
進而提升性能。在實踐中發現，合理調節該參數，性能會有1%~5%的提升。

spark.reducer.maxSizeInFlight

默認值：48m
參數說明：該參數用於設置shuffle read task的buffer緩衝大小，而這個buffer
緩衝決定了每次能夠拉取多少數據。

調優建議：

如果作業可用的內存資源較爲充足的話，可以適當增加這個參數的大小（比如96m），
從而減少拉取數據的次數，也就可以減少網絡傳輸的次數，進而提升性能。在實踐中
發現，合理調節該參數，性能會有1%~5%的提升。

spark.shuffle.io.maxRetries

默認值：3
參數說明：shuffle read task從shuffle write task所在節點拉取屬於自己的數
據時，如果因爲網絡異常導致拉取失敗，是會自動進行重試的。該參數就代表了可以
重試的最大次數。如果在指定次數之內拉取還是沒有成功，就可能會導致作業執行
失敗。

調優建議：

對於那些包含了特別耗時的shuffle操作的作業，建議增加重試最大次數（比如60次）
，以避免由於JVM的full gc或者網絡不穩定等因素導致的數據拉取失敗。在實踐中
發現，對於針對超大數據量（數十億~上百億）的shuffle過程，調節該參數可以大幅度
提升穩定性。

spark.shuffle.io.retryWait

默認值：5s
參數說明：具體解釋同上，該參數代表了每次重試拉取數據的等待間隔，默認是5s。

調優建議：

建議加大間隔時長（比如60s），以增加shuffle操作的穩定性。

spark.shuffle.memoryFraction

默認值：0.2

參數說明：

該參數代表了Executor內存中，分配給shuffle read task進行聚合操作的內存比例，
默認是20%。

調優建議：

在資源參數調優中講解過這個參數。如果內存充足，而且很少使用持久化操作，建議
調高這個比例，給shuffle read的聚合操作更多內存，以避免由於內存不足導致聚合
過程中頻繁讀寫磁盤。在實踐中發現，合理調節該參數可以將性能提升10%左右。

spark.shuffle.manager

默認值：sort

參數說明：

該參數用於設置ShuffleManager的類型。Spark 1.5以後，有三個可選項：hash、
sort和tungsten-sort。HashShuffleManager是Spark 1.2以前的默認選項，但是
Spark 1.2以及之後的版本默認都是SortShuffleManager了。tungsten-sort與
sort類似，但是使用了tungsten計劃中的堆外內存管理機制，內存使用效率更高。

調優建議：

由於SortShuffleManager默認會對數據進行排序，因此如果你的業務邏輯中需要該
排序機制的話，則使用默認的SortShuffleManager就可以；而如果你的業務邏輯不
需要對數據進行排序，那麼建議參考後面的幾個參數調優，通過bypass機制或優化的
HashShuffleManager來避免排序操作，同時提供較好的磁盤讀寫性能。這裏要注意
的是，tungsten-sort要慎用，因爲之前發現了一些相應的bug。

spark.shuffle.sort.bypassMergeThreshold

默認值：200

參數說明：

當ShuffleManager爲SortShuffleManager時，如果shuffle read task的數量小於
這個閾值（默認是200），則shuffle write過程中不會進行排序操作，而是直接按
照未經優化的HashShuffleManager的方式去寫數據，但是最後會將每個task產生的
所有臨時磁盤文件都合併成一個文件，並會創建單獨的索引文件。

調優建議：

當你使用SortShuffleManager時，如果的確不需要排序操作，那麼建議將這個參數
調大一些，大於shuffle read task的數量。那麼此時就會自動啓用bypass機制，
map-side就不會進行排序了，減少了排序的性能開銷。但是這種方式下，依然會產
生大量的磁盤文件，因此shuffle write性能有待提高。

spark.shuffle.consolidateFiles

默認值：false

參數說明：

如果使用HashShuffleManager，該參數有效。如果設置爲true，那麼就會開啓
consolidate機制，會大幅度合併shuffle write的輸出文件，對於shuffle read
task數量特別多的情況下，這種方法可以極大地減少磁盤IO開銷，提升性能。

調優建議：

如果的確不需要SortShuffleManager的排序機制，那麼除了使用bypass機制，還可
以嘗試將spark.shffle.manager參數手動指定爲hash，使用HashShuffleManager，
同時開啓consolidate機制。在實踐中嘗試過，發現其性能比開啓了bypass機制的
SortShuffleManager要高出10%~30%。

shuffle原理及優化策略

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

linux 去重之後進行合併

shell調用無參數存儲過程

空值檢查的存儲過程

矩陣轉換-shell版

用python實現Hbase的讀寫操作

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

shuffle原理 及優化策略

shuffle原理及優化策略