cdh4b1之HDFS的HA(High Availability)原理簡介


引入

         以前Hadoop版本中,NameNodeHDFS集羣的單點故障(single point of failure,SPoF)SPoF指系統中這個部件失效或停止運轉將會導致整個系統不能工作。而這在下面兩種情況出現:

         (1) 意外事件如機器crash,集羣直到重啓NameNode操作執行後纔可用;

         (2) 計劃維修事件,如NameNode上的軟硬件升級會導致NameNode一段宕機時間。

         HDFS HA提供在一個集羣中配置兩臺冗餘NN來解決上述問題,是一種雙機熱備。這可以在NN崩潰時快速的故障恢復,同時在自發管理的計劃維修時快速失效備援。當前hadoop版本是hadoop-0.23.0-cdh4b1

         HA主要機制是:兩個單獨機器運行NN,在所有時刻只有一臺出於active狀態,而另外一臺出於standby狀態。active NN負責客戶端對集羣的所有操作,而Standby NN作爲從設備只是保存足夠的狀態來進行快速的故障恢復。

 

HA總體流程圖

         Block location: 爲了快速failoverstandby NN必須知道這個的相關信息。爲了達到此目的,所有DN上都配置了此兩個NN,並且發送block locationheartbeat到兩個NN上。

         至關重要的一點:只有一個Active NN.兩個NN都是active即所謂腦裂情景(split-brain scenario),因此管理員必須設置一個對共享存儲的fencing method(絕緣方法),當不能確定前Active NN不會自己重新變成active時,需要切斷其對共享存儲的訪問權限,如此便能使新active NN安全的故障恢復。

         standby NN也執行namespace的狀態檢查,因此HA集羣不需要運行Secondary NN, Checkpoint Node, Backup Node

 

下面是詳細的配置安裝,請參見CDH4_High_Availability_Guide_b1.pdf。cloudera 官網有 http://www.cloudera.com/.或者在我資源裏下載看(免費):http://download.csdn.net/detail/liuxingjiaofu/4238395

軟硬件配置

1.1硬件配置

(1)NN機器,兩臺配置相同的機器來運行active standby NN, 並且這兩臺機器的配置和用non-HA集羣時 NN的配置相同。

(2)兩個NN都有讀寫權限的共享存儲:多路徑到存儲,自身的冗餘(disk, network, power)。鑑於上面這些,推薦共享存儲服務器用高級專用的網絡連接式存儲(NAS)設備,而非簡單的LinuxServer

1.2 軟件配置

NamesService ID

NameNode ID

2 HA部署

3 HA管理

發佈了23 篇原創文章 · 獲贊 16 · 訪問量 16萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章