在啓用了HDFS HA的集羣誤刪了一個NameNode解決實踐

原創

滑冰选手库里

2020-06-08 07:14

在啓用了HDFS HA的集羣，2個NameNode節點上一般都會部署三個角色：NameNode，JournalNode和Failover Controller。在實際生產中，我們有時會碰到一個情況，你不小心刪掉了某個NameNode節點上的所有角色包括NameNode，JournalNode和Failover Controller，或者你不小心通過Cloudera Manager直接從主機管理列表裏移除了該NameNode節點，然後你想再把這個節點加回去的時候，發現無論如何HDFS服務都沒辦法正常使用了。本文會在一個HDFS HA的CDH集羣中模擬這種情況，然後嘗試去解決，即先刪除一個NameNode，然後如何通過配置將該NameNode重新加回到HDFS服務中。

測試環境

1.CDH6.1

2.Redhat7.4

3.採用root進行操作

2

模擬異常

1.首先Fayson準備一個正常的CDH6.1的集羣，並且HDFS已經啓用了HA。

2.我們停止ip-172-31-9-113.ap-southeast-1.compute.internal節點上的NameNode，JournalNode和Failover Controller服務。

3.刪除這三個角色，注意下表已經少了這三個角色。

4.這時HDFS服務直接報錯了。

3 個驗證錯誤。
    Quorum Journal 需要至少三個 JournalNode
    Quorum Journal 需要奇數的 JournalNode
    Nameservice nameservice1 has no SecondaryNameNode or High-Availability partner
1 個驗證警告。
    在 NameNode (ip-172-31-6-83) 個非 HA Nameservice nameservice1 上啓用自動故障轉移不起作用。

故障修復方法1

1.我們選擇HDFS服務，然後點擊“操作”，發現雖然是HDFS HA的集羣，操作列表顯示卻是“啓用High Availability”，實際應該是“禁用High Availability”，應該是因爲手動刪除了一個NameNode後引起的。

2.我們先嚐試點擊該按鈕，嘗試重新啓用HDFS的HA。

這裏我們選擇之前的刪掉的NameNode和JournalNode節點

ip-172-31-9-113.ap-southeast-1.compute.internal

報錯，啓用失敗，實際其實我們已經選擇了三個JournalNode，但仍舊報錯需要3個JournalNode，返回，我們繼續嘗試。

故障修復方法2 --我用的該方法直接把誤刪的namenode加上去修改配置重啓即可

1.從以下界面把刪掉的NameNode，JournalNode和Failover Controller的三個角色再給加回去。

2.點擊添加角色實例，並相應的選擇之前刪掉NameNode，JournalNode和Failover Controller角色所在的主機ip-172-31-9-113.ap-southeast-1.compute.internal

3.點擊“繼續”

4.點擊“完成”

5.直接重啓HDFS服務，嘗試拉起剛剛新加的三個角色

還是失敗。

6.進入ip-172-31-9-113.ap-southeast-1.compute.internal節點所在的NameNode配置頁面。

選擇“配置”標籤頁

在“NameNode Nameservice”配置項中輸入nameservice1，這裏根據你集羣啓用HA後的實際情況nameservice的名字輸入，然後保存。

7.在“Quorum Journal 名稱”配置項也輸入nameservice1，這裏根據你集羣啓用HA後的實際情況nameservice的名字輸入，然後保存。

8.勾選“啓用自動故障轉移”，然後保存。

9.回到HDFS服務的實例頁面，發現之前的錯誤已經消失了。

10.回到CM主頁重新部署客戶端，並重啓集羣所有服務。

重啓成功，集羣恢復正常。

我這邊參照方法2解決後的測試：

測試hive

測試sqoop

一切正常！

參考：https://mp.weixin.qq.com/s?__biz=MzI4OTY3MTUyNg==&mid=2247495873&idx=1&sn=2aa2057c70e954baa3cecd4ab2a8c170&chksm=ec2920c8db5ea9deb61c51a76d2d170df51ff7ff78f4ec9223123ee829791ff199a989b7d9ac&scene=21#wechat_redirect

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

cdh設置hdfs權限

通常會把 root 或者需要的用戶添加到 supergroup組，但Linux下默認是沒有supergroup組。 # Linux下默認是沒有supergroup組的 # hadoop:x:994:hdfs,mapred,yarn cat

2022-12-19 09:37:26

開源80萬行代碼，微衆銀行如何在小團隊規模下煉出一套一站式大數據平臺 | 卓越技術團隊訪談錄

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragr

2021-12-21 10:53:51

Uber容器化Apache Hadoop基礎設施的實踐

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Uber 技术团队

2021-11-19 09:03:49

基礎軟件創業 8 年，星環科技如何精準“踩點”？ | C位面對面

在大數據領域創業 12 年，眼見計算引擎經歷了數輪迭代，雲原生興起砸中了一批做容器的，數據雲因爲 Snowflake 上市走入大衆認知，回回都能在風口到來前兩三年做好佈局，這是一種什麼判斷和體驗？本期 C 位面對面，我們邀請到了星環科技創

InfoQ 中文站

2021-11-08 14:38:55

基礎軟件創業 8 年，如何精準“踩點”？｜ C位面對面

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-02 09:28:56

拋棄Hadoop，數據湖才能重獲新生

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockq

2021-10-28 14:23:59

Hadoop 生態裏，爲什麼 Hive 活下來了？

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

Einat Orr 博士

2021-10-08 19:08:56

成功從 Hadoop 遷移到 Lakehouse 架構的 5 個關鍵步驟

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-10-08 10:38:57

基於阿里雲部署的CDP產品詳情

雲與AI時代的到來，爲當下的數據存儲，數據分析帶來了一些顛覆性的變革，企業上雲已是大勢所趨。但企業採用雲服務可能會帶來數據管理方面的挑戰，因爲數據可能被存儲在孤島中，從而使企業難以在所有IT環境中發現、獲取、信任和兼容數據。此外，還存在被單

2021-08-18 15:43:52

伴魚數倉演進

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

伴鱼技术团队

2021-08-14 08:03:57

架構師（2021年7月）

卷首語：淺談架構現狀：設計越來越複雜，行業缺乏系統性思考採訪嘉賓 | 黃浩從之前單純的高流量到現在高流量、高併發，企業面對的業務場景越來越多，對系統的各項要求也越來越高，這意味着對系統架構的要求也越來越高。在過去很長的時間裏，集中式單

InfoQ 中文站

2021-07-08 08:03:58

從廣告監測到知識圖譜，明略千億大數據處理能力是如何煉成的？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-05-18 11:03:58

presto搭建

1.Presto簡介 Presto是由Facebook開源，完全基於內存的並行計算以及分佈式SQL交互式查詢引擎。它可以共享Hive的元數據，然後直接訪問HDFS中的數據，同時支持Hadoop中常見的文件格式比如文本，ORC

2022-12-19 09:37:36

nifi - 介紹

數據同步框架 datax canal sqoop nifi 易於使用，可靠的處理和分發數據框架，主要用於數據同步，數據格式轉換。美國國家安全局給apache 。包括以下特點：基於瀏覽器用戶界面數據來源跟蹤豐富的配置

2023-06-06 23:16:17

使用sqoop1.4.4從oracle導入數據到hive中錯誤記錄及解決方案

使用sqoop1.4.4從oracle導入數據到hive中錯誤記錄及解決方案參考文章：（1）使用sqoop1.4.4從oracle導入數據到hive中錯誤記錄及解決方案（2）https://www.cnblogs.com/wrenc

2021-06-01 21:20:55

24小時熱門文章

前端使用 Konva 實現可視化設計器（13）- 折線 - 最優路徑應用【思路篇】

最新文章

最新評論文章