Hadoop Yarn大集羣(千臺以上)長作業pending的問題分析

大集羣Hadoop Yarn隊列pending優化

1.目前公司集羣採用的規模越來越大,很多長作業出現了pending的現象。

優化方法:

  1. 調整參數yarn.resourcemanager.nodemanagers.heartbeat-interval-ms ,減小NM和RM之間的心跳週期,通過減少心跳週期,從而增加FairScheduler調度器調度到長作業的機會。

原因
1.究其原因,https://issues.apache.org/jira/browse/YARN-7859,這個前同事提的已經說的很清楚了,目前集羣中存在很多小作業,造成了長作業pending的問題。

徹底解決方法
只能等社區針對FairScheduler進行全局調度的開發,只有全局調度才能徹底解決這個問題,自己也做些調研。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章