(八)Spark源碼理解之DAGScheduler---part3

原創

2020-02-26 14:49

講講自己對於ShuffleMapTask和ResultTask的區別
簡單來說兩者都是Task類的子類，不同的是操作類型，前者的操作類型是MapStaus類，是在shuffle map stage生成的，後者的操作類型是數據，是在final stage生成的，多說一句，所謂的Spark基於內存存儲中間數據應該就是存儲MapStatus（分區的映射狀態），鑑於它們都是Task類的子類，因此對Task類的核心方法----runTask方法進行簡單講述下
Shuffle map task首先生成和該任務相關的BlockObjectWriter對象，BlockObjectWriter用來將分區寫入磁盤中，這就和之前提到的BlockManager的內容扯上了關係，之後根據生成的BlockObjectWriter對象得到任務的壓縮大小，最後將BlockManagerId和任務的壓縮大小封裝在MapStatus對象中，存儲MapStatus即可，該MapStatus對象又會作爲其他shuffle map stage的輸入，緊接着Shuffle map task會調用TaskContext類的executeOnCompleteCallbacks()函數，執行存儲在onCompleteCallbacks數組緩存中的函數，這些函數就是我們應用程序中所涉及到的函數，在我們每生成一個任務的過程時，該任務的TaskContext對象就會將在這個過程中應用到的函數（我覺得這些函數就是我們應用程序中所編寫的函數）添加到onCompleteCallbacks中
而ResultTask的runTask過程就相對來說比較易於理解，因爲ResultTask不牽涉shuffle過程，它是一個job的最後階段，一個job只會有一個ResultTask，在runTask()方法中首先ResultTask執行傳遞給finalStage的函數func（因爲resultTask只會在finalStage中生成），之後ResultTask會調用TaskContext類的executeOnCompleteCallbacks()函數，其實關於ShuffleMapTask和ResultTask我的理解始終有所模糊，不過暫且理解如下，希望日後能夠得到更進一步的理解

通過上面的講述，我認爲整個stage或者任務的提交應該都是基於job的提交，只有job提交後才能進行stage的劃分，任務集的提交，任務的執行，因此接下來講講DAGScheduler中的job提交部分，這部分結束之後纔算得上是完成了整個spark的調度過程
應用程序中RDD有許多的動作函數，如collect()等，在前面RDD章節中已經介紹過了，正是由於這些動作函數，觸發了job的提交，進而觸發了整個調度過程，可以藉助下圖進行理解：

其中：finalStage是一個Stage類的對象，它通過newStage()方法生成，是整個job過程的最後一個stage
之後的步驟就可參照上述DAGScheduler劃分stage的那部分了，如此就基本上完成了整個DAGScheduler的調度過程
在之前的章節中已經對submitStage等方法做了解釋，現在稍微講述下runLocally()方法的實現思想
runLocally()方法是在finalStage沒有父stage，且允許本地運行，同時RDD只有一個分區的情況下才會調用，它生成一個線程對象(Thread)，並且重寫了Thread類的run方法（即調用DAGScheduler中的runLocallyWithinThread()方法，該方法就是生成一個TaskContext類對象，之後執行觸發這個job的動作函數，動作函數的參數即爲剛剛生成的TaskContext類對象以及其他），之後讓線程start（即允許重寫的run()方法）即可
DAGScheduler中還有其他方法，基本上就是用於處理各種事件，如任務集失敗等等，這可以聯想到之前講TaskSetManager時提到過TaskSetManager用來處理各種任務集所發生的事件時就是調用DAGScheduler的相應方法，在這裏就不繼續講下去了，點到爲止，我主要是想搞明白DAGScheduler如何劃分stage以及如何提交任務集給TaskScheduler，因此這部分就講到這裏，雖然還有很多講得不太清楚的地方，因此希望可以通過日後的學習及運用加深理解
未完待續。。。
PS:覺得楷體不太適合博文。。換種試試。。。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

整理一些Spark數據傾斜解決的思路

項目中經常會使用到Spark進行批處理，數據量大的時候總是會遇到數據傾斜的情況，參考了項目中遇到的情況以及網上的一些案例，寫篇文章來總結下如何處理Spark中常見的數據傾斜問題。當然由於業務場景不一樣，本文說到的一些解決數據傾斜的

淡定一生2333

2020-07-02 07:35:58

Spark學習筆記（RDD編程基礎）

1. RDD創建　 spark core 從文件讀取　 >>> lines = sc.textFile("file:///user/data_path") # local Scala> val lines = sc.textFile("

2020-06-26 05:05:56

Spark學習筆記（基本概念與環境部署）

21/08/2019 10.Spark概述 spark速度快的原因 1.內存計算 2.有向無環圖通用性很強：以前需要1.SQL查詢：spark SQL實現 2.流式計算：spark stremming 實

2020-06-26 05:05:56

IDEA中直接提交Spark任務

記錄下如何在Widows下的IDEA中直接提交Spark on yarn任務。由於項目使用的是Spring Boot，這裏提交任務指的是在IDEA中啓動Spring Boot工程，然後發送一個Rest請求，觸發Spark on y

淡定一生2333

2020-06-22 23:04:51

Spark數據傾斜如何解決

項目中經常會使用到Spark進行批處理，數據量大的時候總是會遇到數據傾斜的情況，參考了項目中遇到的情況以及網上的一些案例，寫篇文章來總結下如何處理Spark中常見的數據傾斜問題。當然由於業務場景不一樣，本文說到的一些解決數據傾斜的

淡定一生2333

2020-06-22 21:18:39

(七)Spark源碼理解之TaskScheduler----part6

恩。。。。由於最近這段時間都在實習以及找工作，因此就將博客給落下了，現在繼續將spark的部分"搬上"。。PS:雖然我自己也忘得差不多了。。 4.Executor Executor類完成任務的裝載，任務的運行等功能，它有個變量爲Exec

2020-06-22 07:57:58

(七)Spark源碼理解之TaskScheduler----part4

resourceOffers()：該方法是TaskSchedulerImpl的核心所在，實現將任務指定給對應的從節點中的executor，其主要思路可以概述爲：首先將獲取的每個executor的資源，組成組成WorkerOffer序列，

2020-06-22 07:57:58

SparkCore學習筆記（一）

2017/1/10 8:27 Spark架構原理 **概念詞彙：**Application，Application Jar，Driver program（驅動程序）、Cluster Manager（管理集羣資源的外部服務）、Dep

2020-06-22 07:19:00

Windows報Failed to locate the winutils binary in the hadoop binary path，java.io.IOException:

版權聲明：未經允許，隨意轉載，請附上本文鏈接謝謝（づ￣3￣）づ╭❤～ http://blog.csdn.net/xiaoduan_/article/details/79476815 Windows平臺上運行hadoop與spa

2020-06-16 06:40:21

SparkSQL中SQL、DataFrame和DataSet方式的靜態類型安全和運行時類型安全

版權聲明：未經允許，隨意轉載，請附上本文鏈接謝謝（づ￣3￣）づ╭❤～ https://blog.csdn.net/xiaoduan_/article/details/79751755 SQL、DataFrame和DataSet

2020-06-16 06:40:11

Scala學習——尾遞歸

在尾遞歸中，函數可以調用自身，並且該調用時函數的最後一個（“尾部”）操作。尾遞歸時能把函數優化爲循環的重要的一種遞歸。循環可以消除潛在的棧溢出的風險，同時也因爲消除了函數調用開銷而提升了效率。尾遞歸函數中所有遞歸形式的調用都出現在函數的末

不想当小白

2020-06-09 04:56:15

Scala中fold()操作和reduce()操作的區別

reduce()——規約操作，包含reduceLeft()和reduceRight()兩種操作。 fold()——摺疊操作，包含foldLeft()和foldRight()兩種操作。兩者功能相似，不同之處在於： fold()操作需要從一

不想当小白

2020-06-09 04:56:15

windows系統下pycharm遠程訪問linux系統下jupyter notebook，並調用spark平臺（五）pycharm調用juypter notebook

一，anaconda安裝本例使用的是Anaconda3-5.3.1-Linux-x86_64.sh，放在/opt文件夾下首先，安裝anaconda 一直點回車，直到有詢問，輸入yes 查詢anaconda版本至此anacond

2020-06-08 09:33:01

Spark wordcount - Python, Scala, Java

基於Spark實現的Python, Scala, Java三個版本的、經典的分佈式單詞計數代碼。 1. Scala val input = sc.textFile("hdfs://...") val words = input.flat

2020-06-08 00:34:23

數值RDD的操作算子

Spark 對包含數值數據的RDD 提供了一些描述性的統計操作。Spark 的數值操作是通過流式算法實現的，允許以每次一個元素的方式構建出模型。這些統計數據都會在調用stats() 時通過一次遍歷數據計算出來，並以StatsCounter

2020-06-08 00:34:23

24小時熱門文章

最新文章

最新評論文章