浅析Hadoop中MapReduce任务执行流程

MapReduce任务的执行流程非常复杂,但是可以用一个比较粗糙的流程图来描述,描述了一个MapReduce任务从提交到分发和执行完毕的完整过程:



这里要提一下YARN框架,它主要负责的是资源的调度,YARN集群包含两种节点,一种是ResourceManager,这个主要负责资源的管理和调度,一种是NodeManager,这个主要负责任务的运行。

下面把ResourceManager简称为MR,将NodeManager简称为NM,则执行流程可以概括如下:

1、runjar申请执行一个job
2、RM返回Job相关资源提交的路径staging-dir和为本Job产生的jobID
3、提交资源
4、向RM汇报资源提交结果
5、RM将对应的job加入任务队列
6、NM领取任务
7、RM分配运行资源容器到每一个NM
8、RM启动MRAppMaster(在某一个NM上的资源容器)
9、MRAppMaster向RM注册
10、MRAppMaster启动其他NM上的Map进程
11、MRAppMaster启动某个NM上的Reduce进程
12、JOb完成后,MRAPPMaster向RM注销自己 


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章