HDFS中NameNode 單點失敗的改進案例介紹

原創

2020-07-06 06:45

在Hadoop的使用中，NameNode的單點失敗問題一直困擾着框架的使用者。這一節我們提出了一種利用ZooKeeper對NameNode進行冗餘備份協同工作方案，避免了NameNode單點失敗造成的服務不可用與文件丟失問題。

NameNode是整個HDFS的核心，HDFS所有的操作均需由NameNode參與，並且NameNode負責維護整個分佈式文件系統中所有文件的元信息以及目錄信息。如果NameNode出現了失敗，那麼HDFS中所有文件信息將全部丟失。雖然HDFS針對每一個文件都可以根據配置進行多份數據備份，但是NameNode卻只有一個。這使得NameNode成爲了HDFS中的薄弱點，如果NameNode發生單點失敗將導致整個HDFS系統的失敗。

圖1-9NameNode架構圖

HDFS中使用SecondaryNameNode解決NameNode失敗的問題。SecondaryNameNode並不是NameNode的冗餘備份，而是單獨的一個參與者，負責對NameNode中文件元信息以及文件結構定期快照。SecondaryNameNode定期從NameNode上下載鏡像和日誌進行合併，稱爲一次checkpoint，將得到的新的鏡像文件上傳到NameNode替換原來的鏡像文件，使得NameNode上的鏡像文件保持最新。當NameNode出現失敗時，可以從SecondaryNameNode所在的機器拷貝之前的快照，然後重啓NameNode，此時NameNode會導入快照中保存的文件信息，重建文件系統。

SecondaryNameNode方案存在以下幾個問題：

1.必須通過人工的方式尋找並拷貝SecondaryNameNode中保存的快照文件，手工重啓NameNode，無法自動化完成。

2.在NameNode失敗期間，任何人都無法面對HDFS中的文件進行任何形式的訪問，系統失敗的時間取決於人工恢復NameNode的時間。

3.NameNode是以文件鏡像（fsimage）和操作日誌（edit）方式存儲HDFS中文件元信息和目錄結構的，其中edit是實時日誌信息，每過一段時間（默認1小時）或當操作日誌文件大小增加到一定規模時（默認64MB）由SecondaryNameNode負責將edit合併到文件鏡像中並備份。如果NameNode發生失敗而由SecondaryNameNode中快照恢復的話，會導致尚處在操作日誌中未被合併的文件操作信息完全丟失，從而導致文件丟失。

爲了解決NameNode單點失敗造成的問題，改進的HDFS系統中可配置多個NameNode，每個NameNode與所有的DataNode均有聯繫，且向ZooKeeper註冊自己的存在（在特定的ZNode下創建臨時性ZNode，並將自身信息保存在對應ZNode中）。與此同時，架構中加入一個角色Dispatcher，負責將讀、寫請求傳遞給活躍的NameNode執行、處理多個NameNode的同步以及互斥問題，並根據ZooKeeper提供的信息監控NameNode的健康情況以確保當某個NameNode發生失敗後將其從“活躍的”NameNode列表中去除。

圖1-10改進後的HDFS系統架構圖

改進後的HDFS系統包括讀流程和寫流程兩個部分，其中讀流程如下：

1.用戶發起一個讀文件請求；

2.Dispatcher收到讀請求，檢查ZooKeeper中的InWriting列表，如果在InWriting列表中則等待，否則將讀請求加入InReading列表中。

3.從ZooKeeper中尋找活躍的NameNode，將此讀請求轉發給對應的NameNode並記錄。

4.Namenode收到讀請求後處理，將處理結果交由Dispatcher並反饋給用戶。Dispatcher從InReading列表中刪除對應請求。

5.如果Namenode長時間未響應或者讀請求失敗，由Dispatcher尋找另外的Namenode，轉第3步。

寫文件流的流程如下：

1.用戶發起一個寫文件請求。

2.Dispactcher收到寫請求，檢查ZooKeeper中的InWriting和InReading列表，如果在列表中則等待，否則將寫請求加入InWriting列表中。

3.從ZooKeeper中尋找活躍的NameNode，將此寫請邱轉發給對應的NameNode並記錄。

4.NameNode收到寫請求後處理，如果寫操作成功，則通知Dispatcher。Dispatcher告知其他NameNode此次寫操作細節，其他NameNode做對應更新。

5.所有NameNode均更新完畢後，Dispatcher從InWriting中移除對應請求，並返回給用戶。

6.如果NameNode長時間未響應或者寫請求失敗，由Dispatcher尋找另外的NameNode，轉第3步。

當某一個NameNode失敗時，ZooKeeper中對應的臨時性ZNode會自動消失，而Dispatcher在得知此事件後，可以將其從活躍NameNode中去除，對於已經分配給此NameNode且尚未處理完成的讀寫請求可以重新分配。而對於後續的讀寫請求，Dispatcher則交給仍然活躍的NameNode進行處理，對於用戶來說是透明的。

改進後的HDFS系統中Dispatcher變成了單點，依舊存在失敗的風險。但Dispatcher失敗的可能性與危害都遠遠小於NameNode失敗。原因有以下幾點：

1.爲了維護HDFS系統中的文件源信息以及目錄結構，NameNode需要將所有數據全部載入內存，這使得當文件系統足夠龐大時NameNode需要消耗很多的內存，這無疑增加了失敗的可能性。而Dispatcher的任務相對較輕，僅僅是作爲一箇中轉站轉發讀寫請求，失敗的可能性較小。

2.Dispatcher自身不保存任何數據。所有的數據完全交由ZooKeeper存儲，而ZooKeeper自身的特性保證了其很難出現失敗。即使Dispatcher失敗，也可以重新啓動並根據ZooKeeper中記錄的信息完全恢復。

3.作爲一個成熟的分佈式文件系統，對文件安全性與完整性的保證是十分重要的。如果是單NameNode，不管SecondaryNameNode備份間隔如何縮短，在上一次備份到系統失敗這段時間內的文件操作便會全部丟失，這有可能給系統的使用者帶來不可挽回的損失。而改進後的系統不存在這個問題，如果一個修改操作成功，則會被保存在所有NameNode上，丟失文件的機會很小。

所以，相對於只有一個NameNode的HDFS系統，改進後的HDFS系統具有很強的安全性。當一個NameNode失敗後，使用活躍的NameNode中拷貝過來的fsimage和edit文件作爲恢復用途。在添加或恢復一個NameNode之前，先向ZooKeeper註冊一個“備用的”NameNode節點，而Dispatcher在發現有此類節點時則將之後所有的成功寫請求保存在ZooKeeper上。當新添加的NameNode使用fsimage和edit文件恢復完成後，在Dispatcher再將記錄的寫請求按照順序發送給此NameNode，此NameNode根據這一信息同步文件元信息及目錄結構。當新的NameNode同步完成時，刪除ZooKeeper中備用NameNode節點，添加正式的NameNode臨時節點。此事Dispatcher便可得知系統中新NameNode的存在並使用。

歡迎關注麥克叔叔每晚十點說，有興趣的朋友可關注公衆號，讓我們一起交流，一起學習。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Object.values()對象遍歷

Object.keys() 對象的遍歷返回給定對象所有可枚舉屬性的數組；是屬性名組成的數組 let obj = { a: 1, b: 2, c: 3 }; Object.keys(obj).map((key) => {

2024-05-13 14:33:01

c++踩方格-動態規劃基礎題

有一個方格矩陣，矩陣邊界在無窮遠處。我們做如下假設： a、每走一步時，只能從當前方格移動一格，走到某個相鄰的方格上； b、走過的格子立即塌陷無法再走第二次； c、只能向北、東、西三個方向走；請問：如果允許在方格矩陣上走n步，共有多少種不同

2024-05-13 14:30:51

[Mellanox] 安裝MLNX_OFED

[Mellanox] 安裝MLNX_OFED 雖然已經安裝過很多遍了，但是這裏還是再次寫一遍安裝過程，方便以後查閱。 Mellanox的這堆東西其實每個安裝起來都不難，難點在於版本要匹配。所以最重要的是我們要知道1.我們需要哪個版本的驅動；

2024-05-13 14:28:30

JPA使用pg數據庫時，bool字段不能跨庫遷移的解決方案

首先，大多數人的印象裏，hibernate作爲一個笨重學習成本高的近乎全自動的框架它的優點就是可以支持很多數據庫，但是最近研究發現，java中的boolean類型的字段，在mariadb/mysql 中爲bit 0/1,在sqlserver

漫漫人生路總會錯幾步

2024-05-13 14:27:30

【ubuntu】程序運行時的任務欄圖標

1. 快捷方式需要正確的配置StartupWMClass屬性，那麼如何獲取這個屬性呢？參考如下命令 xprop | grep WM_CLASS 將終端程序小窗運行上述命令，鼠標點擊哪個應用窗體就會獲取哪個窗體的名稱，有可能會有多個，多個

漫漫人生路總會錯幾步

2024-05-13 14:27:30

CodePen 的國內替代「筆.COOL」，一個功能完備、使用便捷的在線HTML/CSS/JS編輯器和作品分享平臺

筆.COOL，是一個最近在國內嶄露頭角的在線HTML/CSS/JS編輯器和作品分享平臺。筆.COOL 提供了一個在線的 HTML、CSS 和 JavaScript 代碼編輯器。無需任何安裝，你只需打開網站，就可以開始編寫前端代碼。編輯

2024-05-13 14:26:50

Visual Studio中的四款代碼格式化工具

前言今天大姚給大家分享四款Visual Studio中的代碼格式化工具、擴展插件。大家可以在Visual Studio中的管理擴展或者插件市場下載安裝。代碼格式化工具的作用自動調整代碼的佈局和風格，以確保代碼具有統一的格式，提高可讀性

2024-05-13 14:21:59

幹了 2 年多 Java 外包，終於脫離了！

大家好，我是R哥。金三銀四結束了，上個月分享了一個 35K 入職的面試輔導案例： 35K*14 薪入職了，這公司只要不裁員，我能一直呆下去。。今天再分享一個上個月讓人很有成就感的面試輔導 case：外包、空窗四個月、薪資 10k、

2024-05-13 14:21:19

mysql 存json數據會自動亂序的解決方案

https://blog.csdn.net/whatzhang007/article/details/110089447 總結就是一個字: 啓用json類的保存方式.改成logntext即可. 例如我的方穹項目的表設計: 不吐槽不行, 真

張博的博客

2024-05-13 14:19:49

【Python】保存gym截圖

如果想做基於圖像cnn的深度強化學習，需要拿到gym的截圖，下面是兩種截圖方法。 1. 利用render結果生成圖像： import gym import warnings import os from PIL import Image

2024-05-13 14:11:08

win10 22H2

Windows 10 update history https://support.microsoft.com/en-gb/topic/windows-10-update-history-8127c2c6-6edf-4fdf-8b9f-0f

2024-05-13 14:06:58

【譯】使用 GitHub Copilot 作爲你的編碼 GPS

　　GitHub Copilot 是一個改變遊戲規則的人工智能助手，可以徹底改變您在 Visual Studio 中的編碼流程。在我們的視頻系列中，Bruno Capuano 探討了這個智能編碼夥伴如何幫助您更有效地編寫代碼，同時保持質量

2024-05-13 14:06:38

兩個有趣的AI項目

　　最近看到一個比較有意思的 AI 項目，叫 AI 時間線，顧名思義，就是藉助 AI 來創建某個關鍵字的時間線。主頁界面很簡單，就是一個輸入框。　　　　我在輸入辛亥革命後，就會生成下圖的時間線，將辛亥革命的各個關鍵點都列了出來。我看到這

咖啡機（K.F.J）

2024-05-13 14:05:57

從油猴腳本管理器的角度審視Chrome擴展

從油猴腳本管理器的角度審視Chrome擴展在之前一段時間，我需要藉助Chrome擴展來完成一個需求，當時還在使用油猴腳本與瀏覽器擴展之間調研了一波，而此時恰好我又有一些做的還可以的油猴腳本 TKScript (點個star吧 😁)，相對會

2024-05-13 14:05:17

一文學會 Kubernetes Pod 的生命週期管理（轉載）

收穫瞭解 Pod 的狀態（Status）瞭解 pod 階段（Phase）瞭解 Pod conditions 　　瞭解容器狀態（Status）保持容器健康　　瞭解容器自動重啓　　使用探活（liveness）探針（Probe）檢查容

2024-05-13 14:03:07

24小時熱門文章

測試人員都是畫畫大神，讓我看看誰還不會用代碼圖？

最新文章

最新評論文章