Hadoop集羣nodes unhealthy解決方法

在搭建好Hadoop集羣之後，所有服務均可正常啓動，但是在運行MapReduce程序的時候，發現任務卡在7/09/07 22:28:14 INFO mapreduce.Job: Running job: job_1504781778966_0003，不再往下執行了，經過檢查，發現所有的nodes節點都處於unhealthy的狀態，使用命令查看node 的狀態

bin/yarn node -list -all

查看日誌發現

2015-07-16 15:28:58,643 WARN org.apache.hadoop.yarn.server.nodemanager.DirectoryCollection: Directory /opt/beh/data/yarn/nmlocal error, used space above threshold of 90.0%, removing from list of valid directories

2015-07-16 15:28:58,645 WARN org.apache.hadoop.yarn.server.nodemanager.DirectoryCollection: Directory /opt/beh/logs/yarn/nmlogs error, used space above threshold of 90.0%, removing from list of valid directories

2015-07-16 15:28:58,645 INFO org.apache.hadoop.yarn.server.nodemanager.LocalDirsHandlerService: Disk(s) failed: 1/1 local-dirs are bad: /opt/beh/data/yarn/nmlocal; 1/1 log-dirs are bad: /opt/beh/logs/yarn/nmlogs

2015-07-16 15:28:58,645 ERROR org.apache.hadoop.yarn.server.nodemanager.LocalDirsHandlerService: Most of the disks failed. 1/1 local-dirs are bad: /opt/beh/data/yarn/nmlocal; 1/1 log-dirs are bad: /opt/beh/logs/yarn/nmlogs

是node的內存不足導致的！

解決方法
* 1 把節點上的不用的東西刪完，刪到90%以下即可
* 2 在yarn-site.xml中添加以下配置信息，修改上限和下限

  <property>
     <name>yarn.nodemanager.disk-health-checker.min-healthy-disks</name>
     <value>0.0</value>
  </property>
  <property>
     <name>yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage</name>
     <value>100.0</value>
 </property>

再重啓服務問題解決

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Hadoop集羣nodes unhealthy解決方法

Kafka存儲機制

HTTP URL 詳解

LeetCode【2】-Add Two Numbers

Hive ClassNotFoundException: Class org.apache.hadoop.hive.contrib.serde2.RegexSerDe not found

Spark:Java實現二次排序

Spark：Java實現Action操作

LeetCode【3】Longest Substring Without Repeating Characters

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結