Hadoop 集羣問題彙總

公司希望使用spark on yarn 模式管理spark應用,在搭建hadoop當中碰到的問題分享一下:

Hadoop Version : 2.7.2


1、Report:Call from linux151 to linux152:9000 failed on connection exception : connection refused

自己碰到的情況是沒有啓動hdfs服務導致無法連接。 網上還有一種情況說的是配置了core-site.xml 當中的defaultFS 配置項對應的value爲主機名時該主機名沒有假如到/etc/hosts文件當中,配置hostname即可解決


2、啓動hdfs服務後,datanode沒有啓動,並且日誌當中輸出:All specified directories are failed to load.

      該問題一般是由於name node 節點當中的clusterId 與data node 當中的 clusterId不一致造成,解決方法:比如我配置的namenode位置爲/home/wwd/hadoop/dfs/name,datanode位置爲/home/wwd/hadoop/dfs/data,那麼修改 dfs/data/current/VERSION 文件當中clusterId項,與namenode當中dfs/name/current/VERSION當中的clusterId一致即可,如果爲完全集羣模式,則所有的namenode和datanode當中的clusterId 應該與master當中一致。


3、集羣模式下啓動yarn資源管理器後訪問http://master:8088 ,點擊nodes 後發現某些節點無法正常啓動



去問題節點上查看Nodemanager相關日誌可以發現是由於文件系統使用率達到了90%導致的


刪除不需要的垃圾文件,將磁盤使用率降到90%以下即可,注意不需要重啓,滿足註冊條件後hadoop會自動將該節點註冊到yarn資源管理器上

注:圖片來自其他博主博客

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章