大集羣Hadoop Yarn隊列pending優化
1.目前公司集羣採用的規模越來越大,很多長作業出現了pending的現象。
優化方法:
- 調整參數yarn.resourcemanager.nodemanagers.heartbeat-interval-ms ,減小NM和RM之間的心跳週期,通過減少心跳週期,從而增加FairScheduler調度器調度到長作業的機會。
原因
1.究其原因,https://issues.apache.org/jira/browse/YARN-7859,這個前同事提的已經說的很清楚了,目前集羣中存在很多小作業,造成了長作業pending的問題。
徹底解決方法
只能等社區針對FairScheduler進行全局調度的開發,只有全局調度才能徹底解決這個問題,自己也做些調研。