相信大部分的Hadoop的初學者都會都會遇到這樣的問題: 在配置好Hadoop集羣后,當執行sbin/start-dfs.sh時會發現datanode進程啓動後立即關閉。我當時遇到這樣的問題時一臉懵逼,以爲是自己配置Hadoop的參數出現錯誤。結果反覆的重新配置,重新格式化,然而並沒有什麼用處。廢話不多說了,現在開始介紹問題的產生以及解決方案吧。
問題:Namenode上namespaceID與datanode上namespaceID不一致。
問題產生原因:每次namenode format會重新創建一個namenodeId,而tmp/dfs/data下包含了上次format下的id,namenode format清空了namenode下的數據,但是沒有清空datanode下的數據,所以造成namenode節點上的namespaceID與datanode節點上的namespaceID不一致。啓動失敗。
解決方法:
(1)停掉集羣服務
(2)在出問題的datanode節點上刪除data目錄,data目錄即是在hdfs-site.xml文件中配置的dfs.data.dir目錄,本機器上那個是/hadoop/hadoop-2.7.1/hdfs/dfs/data/ (注:在所有的datanode和namenode節點上均執行了該步驟。以防刪掉後不成功,可以先把data目錄複製一份)。
(3)格式化namenode.
(4)重新啓動集羣。
問題解決。
謹記:這種方法帶來的一個副作用就是會造成hdfs上的所有數據丟失。