hdsf有個節點心跳掛了,排查記錄簡述

開發環境配置不行,時常會因爲硬盤滿了掛掉,但這次排查後,並不是這個原因,也排除了防火牆問題;

ambari上hdfs啓動組件,總是有一臺心跳不報,heatbeat lost,但部分組件例如hbase等等運行良好;

查看配置,發現有用到 機器名、機器名.localdomain兩種情況;

ping 兩種,其中機器名的ping不通;

檢查該機器hosts文件,發現掛的那臺最後加了個 127.0.0.1 機器名 的迴環地址覆蓋了前面的配置,是其它同事配置時覆蓋了,註釋掉。

重啓該機器ambari-agent ,可以了正常啓動了。

 

 

-------------------------過了個把月又掛了,翻看舊文件看hosts沒問題

ambari的host單節點無法啓動任何東西,那麼說明是ambari-agent無響應,去重啓ambari-agent即可

sudo ambari-agent restart

再記錄一次,同樣的原因,不過這次表現不一樣,這次是其他機器都能ping通機器名、機器名.localdomain;

我是偶然間,那臺機器ping自己的機器名、別名,發現 怎麼跟找不到機器的直接解析127.0.0.1迴環地址一樣,然後其他正常機器ping自己的機器名、別名是正常解析ip。

然後去查看/etc/host文件,fucking a dog,果然又是 不知道怎麼回事誰用127.0.0.1 機器別名 給覆蓋了。蒼天啊,覆蓋之仇不共戴天,我要去找同事麻煩去了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章