HDFS的高可用（HA）圖文並茂

原創

2020-06-02 16:54

1：架構

上圖是一張Hadoop高可靠性的工作原理圖，其中NN代表的是NameNode，DN代表的是DataNode，ZK代表的是Zookeeper，我們發現這個集羣當中有兩個NameNode，一個處於Active狀態，另一個處於Standby狀態，NameNode是受Zookeeper控制的，但是又不是直接受Zookeeper控制，有一箇中間件FailoverController（也就是ZKFC進程），每一個NameNode所在的機器都有一個ZKFC進程，ZKFC可以給NameNode發送一些指令，比如切換指令。同時ZKFC還負責監控NameNode，一旦它發現NameNode宕機了，它就會報告給Zookeeper，另一臺NameNode上的ZKFC可以得到那一臺NameNode宕機的信息，因爲Zookeeper數據是同步的，因此它可以從ZK中得到這條信息，它得到這條信息之後，會向它控制的NameNode發送一條指令，讓它由Standby狀態切換爲Active狀態。具體原理是什麼呢，剛開始的時候兩個NameNode都正常工作，處於激活狀態的NameNode會實時的把edits文件寫入到存放edits的一個介質當中，Standby狀態的NameNode會實時的把介質當中的edits文件同步到它自己所在的機器。因此Active裏面的信息與Standby裏面的信息是實時同步的。FailoverController實時監控NameNode，不斷把NameNode的情況彙報給Zookeeper，一旦Active狀態的NameNode發生宕機，FailoverController就跟NameNode聯繫不上了，聯繫不上之後，FailoverController就會把Active宕機的信息彙報給Zookeeper，另一個FailoverController便從ZK中得到了這條信息，然後它給監控的NameNode發送切換指令，讓它由Standby狀態切換爲Active狀態。存放edits文件的方式可以使用NFS—網絡文件系統，另一種是JournalNode，DataNode連向的是NameService,DataNode既可以跟Active的NameNode通信又可以跟Standby的NameNode通信，一旦Active宕機，DataNode會自動向新的Active進行通信。

2：問題（JN的引出）

客戶端如果同步寫入主NN，備NN（寫入主後繼續寫入備，直至寫完纔算寫入成功），就會導致效率很慢！
客戶端如果異步寫入主NN，備NN（寫入主後就返回寫入成功，備NN進行後臺同步主NN），就會存在備NN同步主NN時主NN掛了，導致備NN數據不全

解決辦法（JournalNode）

CAP原則（一致性、可用性、分區容忍性三者之間的衝突）
Paxos算法
- 一種基於消息傳遞的一致性算法（被公認爲類似算法中最有效的）
- 類似一種帶存儲能力的消息隊列
- JournalNode（JN）就是一種實現
  - 明確分佈式節點
  - 明確節點權重
  - 強一致性破壞可用性
  - 過半通過可以中和一致性和可用性
  - 最簡單的自我協調實現：主從
  - 主的選舉：明確節點數量和權重即可
  - 主從的職能
    - 主：增刪改查
    - 從：查詢，增刪改傳遞給主
    - 主與從：過半數就要同步數據

3：主備NN

Active NN 和 Standby NN：兩臺 NN形成互備，一臺處於 Active 狀態，爲主 NN，另外一臺處於 Standby 狀態，爲備 NN，只有主 NN才能對外提供讀寫服務。
在HA模式中沒有SecondaryNameNode（SNN），StandBy角色會滾動EditLog日誌落向FSImage中，SNN只在非HA模式中

4：ZKFC

主備切換控制器 ZKFailoverController：ZKFC作爲獨立的進程運行（運行在NN所在主機上），對 NN的主備切換進行總體控制。
- 健康檢測：zkfc會週期性的向它監控的namenode（只有namenode纔有zkfc進程，並且每個namenode各一個）發生健康探測命令，從而鑑定某個namenode是否處於正常工作狀態，如果機器宕機，心跳失敗，那麼zkfc就會標記它處於不健康的狀態；
- 會話管理：如果namenode是健康的，zkfc機會保持在zookeeper中保持一個打開的會話，如果namenode是active狀態的，那麼zkfc還會在zookeeper中佔有一個類型爲短暫類型的znode，當這個namenode掛掉時，這個znode將會被刪除，然後備用的namenode得到這把鎖，升級爲主的namenode，同時標記狀態爲active,當宕機的namenode,重新啓動，他會再次註冊zookeeper,發現已經有znode了，就自動變爲standby狀態，如此往復循環，保證高可靠性，但是Hadoop2.x僅支持最多配置兩個namenode，Hadoop3.x支持多個
- master選舉：如上所述，通過在zookeeper中維持一個短暫類型的znode,來實現搶佔式的鎖機制，從而判斷哪個namenode爲active狀態。

5：zookeeper

Zookeeper 集羣：爲主備切換控制器提供主備選舉支持。
- 目錄樹結構：/hadoop-ha/子目錄下有鎖，主備NN爭搶
- 事件機制–》callBack（）回調函數，Watch監控着鎖
- 有zkfc維持的臨時節點

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

cdh設置hdfs權限

通常會把 root 或者需要的用戶添加到 supergroup組，但Linux下默認是沒有supergroup組。 # Linux下默認是沒有supergroup組的 # hadoop:x:994:hdfs,mapred,yarn cat

2022-12-19 09:37:26

Java操作HDFS示例

1. 環境準備大數據集羣一套，沒有的可以自己本地搭建一套（參考地址：https://www.jianshu.com/p/2c2ae6490fa0）本地安裝JDK 本地安裝IDEA或者Eclipse 2. 創建Maven項目在IDE

2021-01-30 09:17:43

Hadoop學習筆記_4：運行模式之僞分佈式模式

僞分佈式模式 Hadoop can also be run on a single-node in a pseudo-distributed mode where each Hadoop daemon runs in a se

编程小透明

2020-07-07 23:10:59

HBase 增量備份

Author：Pirate Leo myBlog: http://blog.csdn.net/pirateleo/ myEmail: [email protected] 轉載請註明出處，謝謝。文中可能涉及到的API：

胡同里的民工

2020-07-07 09:10:55

HDFS一致性和高可用原理

HDFS的特點分佈式文件系統。保存多個副本，提供容錯機制，副本丟失或宕機的自動恢復能力。適合大數據處理，文件分塊存儲，默認是128M；文件與Black的對應關係存儲在NameNode所在節點的內存中，方便文件的尋址和訪問。

2020-07-07 03:17:06

HDFS Rolling Upgrade的實現要點分析

文章目錄前言HDFS NameNode端針對Rolling Upgrade的調整HDFS DataNode端針對Rolling Upgrade的調整引用前言我們知道HDFS Rolling Upgrade功能在幾年前比較早的

Android路上的人

2020-07-07 01:28:48

HDFS 安全模式

HDFS 安全模式文章目錄HDFS 安全模式安全模式概述安全模式配置安全模式命令安全模式概述安全模式是 HDFS 所處的一種特殊狀態，在這種狀態下，文件系統只接受讀數據請求，而不接受刪除、修改等變更請求，是一種保護機制，用於

2020-07-05 04:51:35

HDFS 筆記二

1.HDFS元數據管理機制計算機中存儲數據兩種：內存或者是磁盤元數據存儲磁盤：存儲磁盤無法面對客戶端對元數據信息的任意的快速低延遲的響應，但是安全性高元數據存儲內存：元數據存放內存，可以高效的查詢以及快速響應客戶端的查詢請求

新手路上的程序员

2020-07-04 06:18:36

HDFS 筆記一

1.HDFS主要的組件: 2.HDFS讀數據流程 1. 客戶端通過Distributed FileSystem向NameNode請求下載文件，NameNode通過查詢元數據，找到文件塊所在的DataNode地址。 2. 挑選一臺Da

新手路上的程序员

2020-07-04 06:18:36

HBase系列（三）HBase物理架構與工作流程詳解--收藏這一份就夠了！！！

文章目錄HBase物理架構：HMaster：HMaster的主要作用：--負責table和region管理工作HRegionServer：1.HLog ----簡直和NN的editlog還有mysql的log文件一毛一樣2.HRe

2020-07-03 09:59:23

Hive自定義表生成函數UDTF的自定義實現Demo

前言 Hive：2.3.0 由於實際生產環境中，Hive自帶的內建函數無法覆蓋所有的應用場景，所以時常需要進行自定義函數User-Defined Function（UDF），以滿足實際生產需求。本文主要演示如何實現自

2020-07-03 03:17:36

Hive之配置使用snappy壓縮

前言 OS：CentOS 7 hadoop：2.7.7 hive：2.3.0 Hive中配置snappy壓縮，可以分別在Mapper輸出階段和Reducer輸出階段使用壓縮算法。也可以將壓縮後數據文件加載到表中用於

2020-07-03 03:17:36

HBase API 操作:實現將HDFS中的數據寫入HBase表實例

在windows下使用編譯器寫代碼時，要注意jdk版本和linux下的jdk版本保持一致，避免版本不同造成在linux環境下不能運行的情況。這裏使用的是mapreduce框架來做數據的分析。如果創建的是Maven項目，需要在po

2020-07-01 22:45:12

第1章 HDFS概述

1.1 HDFS產出背景及定義 1.2 HDFS優缺點 1.3 HDFS組成架構 1.4 HDFS文件塊大小（面試重點）

2020-07-01 14:33:07

hadoop(二):hdfs HA原理

早期的hadoop版本，NN是HDFS集羣的單點故障點，每一個集羣只有一個NN,如果這個機器或進程不可用，整個集羣就無法使用。爲了解決這個問題，出現了一堆針對HDFS HA的解決方案（如：Linux HA, VMware FT, s

2020-07-01 05:14:55

24小時熱門文章

最新文章

最新評論文章