背景:
CDH集羣中一個DataNode節點宕機後所有服務中斷,其他節點正常運行並存儲了大量新數據。
在恢復宕機節點後,重啓其DataNode與JournalNode,之後CM報出JournalNode不同步的錯誤,如下圖。
處理:
1、停止bigdata168上不同步的JournalNode服務(在CM上操作角色)
2、備份bigdata168服務器上JournalNode的數據目錄(可跳過)
cp -r /dfs/jn /opt/backup/cdh/jn
3、刪除bigdata168服務器上JournalNode的數據目錄下以edits_inprogress_開頭的所有文件,注意是edits_inprogress開頭的。
rm -rf /dfs/jn/nameservice-ha/edits_inprogress_*
4、重啓bigdata168服務器上的JournalNode(在CM上操作角色),之後它會自動向正常節點同步數據,恢復edits_inprogress文件。
等待一段時間,該JournalNode就會恢復。