研讀《高可用多節點集羣技術的研究和實現》-----需要研究的關鍵技術

一 研究相關技術

高可用的集羣產品,一直以來作爲主機系統的保護方案,通常實現的是雙機容錯的集羣方案,以多節點集羣爲代表性的多爲國外廠商,技術難點是多機環境下的心跳檢測機制的設計和故障遷移的設計。在我的論文之以zookeeper技術來實現多機環境下的心跳檢測和故障遷移。

1.心跳檢測機制

對失效節點的檢測,對網絡狀態,節點狀態,軟件狀態,存儲狀態進行實時的檢測。失效檢測是所有高可用的基礎。集羣系統正常運行以後,系統進入監控的狀態,如果檢測到集羣中有故障節點,立即將故障節點的工作遷移到其他的節點中,但是怎樣才能高效的可靠的採集每個節點的信息呢,這需要一個好的模型,使用zookeeper 的watch機制應該可以實現。集羣之間通過心跳信號和其他的節點進行通信,獲取其他節點的運行狀態。

2.故障遷移和故障恢復

故障遷移是指一個節點失效時將系統自動和透明的切換到另一個節點繼續提供服務的功能。故障遷移功能是高可用性系統的基礎功能,故障恢復是指當失效的節點恢復功能以後重新可用時,將服務遷移到原始的節點的過程。用戶可以配置系統,可以自動遷移,也可以手動遷移。有了數據遷移,數據回滾,任務遷移和故障恢復性不但提高了高可用性,而且可以在線系統維護和軟件滾動升級,提高系統的可維護性。

3.虛擬服務

集羣在工作的時候,都會虛擬出一部分計算機資源,給外部的程序和用戶訪問,比如虛擬IP和虛擬主機名等等,虛擬提供的服務是集羣提供的服務,一個集羣可以運行很多的,每個服務都可以有自己的IP和主機名,將其映射到真實的機器上面。這樣。每個服務就相當於一臺虛擬機,一旦發生了故障,就可以在集羣的內部進行故障的轉移和恢復。但是在外界看來虛擬服務只不過停頓了一會兒而已,其他的什麼都沒有改變。

4.網絡的負載均衡

網絡負載均衡是指集羣中的服務器在處理客戶端請求的同時,能夠根據服務端的空閒程度,自動的轉移到負載較小的服務器上面。

發佈了34 篇原創文章 · 獲贊 12 · 訪問量 7萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章