Spark資源調度和任務調度過程介紹

一、前述

Spark的資源調度是個很重要的模塊,只要搞懂原理,才能具體明白Spark是怎麼執行的,所以尤其重要。

自願申請的話,本文分粗粒度和細粒度模式分別介紹。

二、具體

Spark資源調度流程圖:

Spark資源調度和任務調度的流程:

Spark資源調度和任務調度過程介紹

1、啓動集羣后,Worker節點會向Master節點彙報資源情況,Master掌握了集羣資源情況。

2、當Spark提交一個Application後,根據RDD之間的依賴關係將Application形成一個DAG有向無環圖。任務提交後,Spark會在Driver端創建兩個對象:DAGScheduler和TaskScheduler。

3、DAGScheduler是任務調度的高層調度器,是一個對象。DAGScheduler的主要作用就是將DAG根據RDD之間的寬窄依賴關係劃分爲一個個的Stage,然後將這些Stage以TaskSet的形式提交給TaskScheduler(TaskScheduler是任務調度的低層調度器,這裏TaskSet其實就是一個集合,裏面封裝的就是一個個的task任務,也就是stage中的並行度task任務)

4、TaskSchedule會遍歷TaskSet集合,拿到每個task後會將task發送到計算節點Executor中去執行(其實就是發送到Executor中的線程池ThreadPool去執行)。

5、task在Executor線程池中的運行情況會向TaskScheduler反饋,

6、當task執行失敗時,則由TaskScheduler負責重試,將task重新發送給Executor去執行,默認重試3次。如果重試3次依然失敗,那麼這個task所在的stage就失敗了。

7、stage失敗了則由DAGScheduler來負責重試,重新發送TaskSet到TaskSchdeuler,Stage默認重試4次。如果重試4次以後依然失敗,那麼這個job就失敗了。job失敗了,Application就失敗了。

8、TaskScheduler不僅能重試失敗的task,還會重試straggling(落後,緩慢)task(也就是執行速度比其他task慢太多的task)。如果有運行緩慢的task那麼TaskScheduler會啓動一個新的task來與這個運行緩慢的task執行相同的處理邏輯。兩個task哪個先執行完,就以哪個task的執行結果爲準。這就是Spark的推測執行機制。在Spark中推測執行默認是關閉的。推測執行可以通過spark.speculation屬性來配置。

總結:

1、對於ETL類型要入數據庫的業務要關閉推測執行機制,這樣就不會有重複的數據入庫。

2、如果遇到數據傾斜的情況,開啓推測執行則有可能導致一直會有task重新啓動處理相同的邏輯,任務可能一直處於處理不完的狀態。(所以一般關閉推測執行)

3、一個job中多個action, 就會有多個job,一般一個action對應一個job,如果一個application中有多個job時,按照順序一次執行,即使後面的失敗了,前面的執行完了就完了,不會回滾。

4、有SparkContext端就是Driver端。

5、一般到如下幾行時,資源就申請完了,後面的就是處理邏輯了

val conf = new SparkConf()

conf.setMaster("local").setAppName("pipeline");

val sc = new SparkContext(conf)

粗粒度資源申請和細粒度資源申請

粗粒度資源申請(Spark)

在Application執行之前,將所有的資源申請完畢,當資源申請成功後,纔會進行任務的調度,當所有的task執行完成後,纔會釋放這部分資源。

優點:在Application執行之前,所有的資源都申請完畢,每一個task運行時直接使用資源就可以了,不需要task運行時在執行前自己去申請資源,task啓動就快了,task執行快了,stage執行就快了,job就快了,application執行就快了。

缺點:直到最後一個task執行完成纔會釋放資源,集羣的資源無法充分利用。當數據傾斜時更嚴重。

細粒度資源申請(MapReduce)

Application執行之前不需要先去申請資源,而是直接執行,讓job中的每一個task在執行前自己去申請資源,task執行完成就釋放資源。

優點:集羣的資源可以充分利用。

缺點:task自己去申請資源,task啓動變慢,Application的運行就相應的變慢了
歡迎工作一到五年的Java工程師朋友們加入Java架構開發: 855835163
羣內提供免費的Java架構學習資料(裏面有高可用、高併發、高性能及分佈式、Jvm性能調優、Spring源碼,MyBatis,Netty,Redis,Kafka,Mysql,Zookeeper,Tomcat,Docker,Dubbo,Nginx等多個知識點的架構資料)合理利用自己每一分每一秒的時間來學習提升自己,不要再用"沒有時間“來掩飾自己思想上的懶惰!趁年輕,使勁拼,給未來的自己一個交代!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章