Hadoop Failover

YARN - Failover

ApplicationMaster定時發送心跳信號到ResourceManager，通常一旦ApplicationMaster失敗，則認爲失敗，但也可以通過配置多次後才失敗
一旦ApplicationMaster失敗，ResourceManager會啓動一個新的ApplicationMaster
新的ApplicationMaster負責恢復之前錯誤的ApplicationMaster的狀態(yarn.app.mapreduce.am.job.recovery.enable=true)，這一步是通過將應用運行狀態保存到共享的存儲上來實現的，ResourceManager不會負責任務狀態的保存和恢復
Client也會定時向ApplicationMaster查詢進度和狀態，一旦發現其失敗，則向ResouceManager詢問新的ApplicationMaster

NodeManager定時發送心跳到ResourceManager，如果超過一段時間沒有收到心跳消息，ResourceManager就會將其移除
任何運行在該NodeManager上的任務和ApplicationMaster都會在其他NodeManager上進行恢復
如果某個NodeManager失敗的次數太多，ApplicationMaster會將其加入黑名單（ResourceManager沒有），任務調度時不在其上運行任務

可以看出，一般的錯誤處理都是由當前模塊的父模塊進行監控（心跳）和恢復。而最頂端的模塊則通過定時保存、同步狀態和zookeeper來ֹ實現HA

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.