淺析Hadoop中MapReduce任務執行流程

MapReduce任務的執行流程非常複雜,但是可以用一個比較粗糙的流程圖來描述,描述了一個MapReduce任務從提交到分發和執行完畢的完整過程:



這裏要提一下YARN框架,它主要負責的是資源的調度,YARN集羣包含兩種節點,一種是ResourceManager,這個主要負責資源的管理和調度,一種是NodeManager,這個主要負責任務的運行。

下面把ResourceManager簡稱爲MR,將NodeManager簡稱爲NM,則執行流程可以概括如下:

1、runjar申請執行一個job
2、RM返回Job相關資源提交的路徑staging-dir和爲本Job產生的jobID
3、提交資源
4、向RM彙報資源提交結果
5、RM將對應的job加入任務隊列
6、NM領取任務
7、RM分配運行資源容器到每一個NM
8、RM啓動MRAppMaster(在某一個NM上的資源容器)
9、MRAppMaster向RM註冊
10、MRAppMaster啓動其他NM上的Map進程
11、MRAppMaster啓動某個NM上的Reduce進程
12、JOb完成後,MRAPPMaster向RM註銷自己 


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章