關於面試--【Spark如何調優 】

目錄

1)使用foreachPartitions替代foreach。

2)設置num-executors參數

3)設置executor-memory參數

4) executor-cores

5) driver-memory

6) spark.default.parallelism

7) spark.storage.memoryFraction

8) spark.shuffle.memoryFraction

資源參數參考示例


1)使用foreachPartitions替代foreach。

原理類似於“使用mapPartitions替代map”,也是一次函數調用處理一個partition的所有數據,而不是一次函數調用處理一條數據。在實踐中發現,foreachPartitions類的算子,對性能的提升還是很有幫助的。比如在foreach函數中,將RDD中所有數據寫MySQL,那麼如果是普通的foreach算子,就會一條數據一條數據地寫,每次函數調用可能就會創建一個數據庫連接,此時就勢必會頻繁地創建和銷燬數據庫連接,性能是非常低下;但是如果用foreachPartitions算子一次性處理一個partition的數據,那麼對於每個partition,只要創建一個數據庫連接即可,然後執行批量插入操作,此時性能是比較高的。實踐中發現,對於1萬條左右的數據量寫MySQL,性能可以提升30%以上。

 

2)設置num-executors參數

參數說明:該參數用於設置Spark作業總共要用多少個Executor進程來執行。Driver在向YARN集羣管理器申請資源時,YARN集羣管理器會盡可能按照你的設置來在集羣的各個工作節點上,啓動相應數量的Executor進程。這個參數非常之重要,如果不設置的話,默認只會給你啓動少量的Executor進程,此時你的Spark作業的運行速度是非常慢的。

 

參數調優建議:該參數設置的太少,無法充分利用集羣資源;設置的太多的話,大部分隊列可能無法給予充分的資源。針對數據交換的業務場景,建議該參數設置1-5。

 

3)設置executor-memory參數

參數說明:該參數用於設置每個Executor進程的內存。Executor內存的大小,很多時候直接決定了Spark作業的性能,而且跟常見的JVM OOM異常也有直接的關聯。

 

參數調優建議:針對數據交換的業務場景,建議本參數設置在512M及以下。

 

4) executor-cores

參數說明:該參數用於設置每個Executor進程的CPU core數量。這個參數決定了每個Executor進程並行執行task線程的能力。因爲每個CPU core同一時間只能執行一個task線程,因此每個Executor進程的CPU core數量越多,越能夠快速地執行完分配給自己的所有task線程。

 

參數調優建議:Executor的CPU core數量設置爲2~4個較爲合適。建議,如果是跟他人共享一個隊列,那麼num-executors * executor-cores不要超過隊列總CPU core的1/3~1/2左右比較合適,避免影響其他人的作業運行。

 

5) driver-memory

參數說明:該參數用於設置Driver進程的內存。

 

參數調優建議:Driver的內存通常來說不設置,或者設置512M以下就夠了。唯一需要注意的一點是,如果需要使用collect算子將RDD的數據全部拉取到Driver上進行處理,那麼必須確保Driver的內存足夠大,否則會出現OOM內存溢出的問題。

 

6) spark.default.parallelism

參數說明:該參數用於設置每個stage的默認task數量。這個參數極爲重要,如果不設置可能會直接影響你的Spark作業性能。

 

參數調優建議:如果不設置這個參數, Spark自己根據底層HDFS的block數量來設置task的數量,默認是一個HDFS block對應一個task。Spark官網建議的設置原則是,設置該參數爲num-executors * executor-cores的2~3倍較爲合適,此時可以充分地利用Spark集羣的資源。針對數據交換的場景,建議此參數設置爲1-10。

 

7) spark.storage.memoryFraction

參數說明:該參數用於設置RDD持久化數據在Executor內存中能佔的比例,默認是0.6。也就是說,默認Executor 60%的內存,可以用來保存持久化的RDD數據。根據你選擇的不同的持久化策略,如果內存不夠時,可能數據就不會持久化,或者數據會寫入磁盤。

 

參數調優建議:如果Spark作業中,有較多的RDD持久化操作,該參數的值可以適當提高一些,保證持久化的數據能夠容納在內存中。避免內存不夠緩存所有的數據,導致數據只能寫入磁盤中,降低了性能。但是如果Spark作業中的shuffle類操作比較多,而持久化操作比較少,那麼這個參數的值適當降低一些比較合適。如果發現作業由於頻繁的gc導致運行緩慢(通過spark web ui可以觀察到作業的gc耗時),意味着task執行用戶代碼的內存不夠用,那麼同樣建議調低這個參數的值。針對數據交換的場景,建議降低此參數值到0.2-0.4。

 

8) spark.shuffle.memoryFraction

參數說明:該參數用於設置shuffle過程中一個task拉取到上個stage的task的輸出後,進行聚合操作時能夠使用的Executor內存的比例,默認是0.2。也就是說,Executor默認只有20%的內存用來進行該操作。shuffle操作在進行聚合時,如果發現使用的內存超出了這個20%的限制,那麼多餘的數據就會溢寫到磁盤文件中去,此時就會極大地降低性能。

 

參數調優建議:如果Spark作業中的RDD持久化操作較少,shuffle操作較多時,建議降低持久化操作的內存佔比,提高shuffle操作的內存佔比比例,避免shuffle過程中數據過多時內存不夠用,必須溢寫到磁盤上,降低了性能。如果發現作業由於頻繁的gc導致運行緩慢,意味着task執行用戶代碼的內存不夠用,那麼同樣建議調低這個參數的值。針對數據交換的場景,建議此值設置爲0.1或以下。

資源參數參考示例

 

以下是一份spark-submit命令的示例,可以參考一下,並根據自己的實際情況進行調節:

./bin/spark-submit \

  --master yarn-cluster \

  --num-executors 1 \

  --executor-memory 512M \

  --executor-cores 2 \

  --driver-memory 512M \

  --conf spark.default.parallelism=2 \

  --conf spark.storage.memoryFraction=0.2 \

  --conf spark.shuffle.memoryFraction=0.1 \

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章