深度解析大快DKadoop大數據運維管理平臺功能


之前幾周的時間一直是在圍繞DKhadoop的運行環境搭建寫分享,有一些朋友留言索要了dkhadoop安裝包,不知道有沒有去下載安裝一探究竟。關於DKHadoop下載安裝基本已經講清楚了,這幾天有點空閒把大快DKM大數據運維管理平臺的內容整理了一些,作爲DKHadoop相配套的管理平臺,是有必要對DKM有所瞭解的。

DKM 是DKHadoop管理平臺。作爲大數據平臺端到端Apache Hadoop 的管理應用,DKM 對 DKH 的每個部件都提供了細粒度的可視化和控制。通過DKM ,運維人員是可以提高集羣的性能,提升服務質量,提高合規性並降低管理成本。

DKM 設計的目的是爲了使得對於企業數據中心的管理變得簡單和直觀。通過DKM ,可以方便地部署,並且集中式的操作完整的大數據軟件棧。該應用軟件會自動化安裝過程,從而減少了部署集羣的時間。通過DKM 可以提供一個集羣範圍內的節點實時運行狀態視圖。同時,還提供了一箇中央控制檯,可以用於配置集羣。總結DKM 能夠提供的功能主要有以下幾點

1.自動化Hadoop 安裝過程,大幅縮短部署時間;

2.提供實時的集羣概況,例如節點,服務的運行狀況;

3.提供了集中的中央控制檯對集羣的配置進行更改;

4.包含全面的報告和診斷工具,幫助優化性能和利用率;

 基本功能DKM的基本功能主要可以分爲四大模塊:管理功能,監控功能,診斷功能和集成功能。本篇我們就先來看以下管理功能:

1、批量部署

我們都知道Hadoop 本身是一個分佈式的系統,因此在安裝時,需要對每一個節點進行組件的安裝,並且由於是開源軟件,其安裝過程相對比較複雜,Hadoop 每個組件都需要做很多的配置工作,這一點相信各位深有體會DKH 提供了DKM 來自動化安裝部署Hadoop 。 大大縮短了Hadoop 的安裝時間,同時也簡化了安裝Hadoop 的過程。DKHADOOP安裝步驟請參考此前分享的文章

自動化安裝的過程如下:

1.安裝環境準備,下載DKM 以及DKH 的安裝文件,安裝JDK,yum 等基本軟件。

2.挑選一臺節點,安裝DKM ,用戶只需要啓動安裝腳本即可,通常情況下幾分鐘就能夠完成。

3.DKM 是一個web 應用,提供了基於瀏覽器的界面,用戶可以通過瀏覽器可視化的進行DKH的安裝部署。

4.通過DKM 界面,添加其他需要的安裝的節點,選擇要安裝的Hadoop 組件,以及每個節點承擔的角色,選擇安裝,DKM 會自動地將需要安裝的軟件分發到對應的節點,並完成安裝。

5.當所有節點的軟件都安裝完成之後,DKM 會啓動所有的服務。從上述的安裝過程可以看出DKH 的安裝主要體現兩個特點,批量化以及自動化。只需要在其中一個節點完成,其他節點都可以進行批量化的自動安裝。

2、集羣配置

1可視化參數配置界面

Hadoop 包含許多的組件,不同的組件都包含各種各樣的配置, 並且分佈於不同的主機之上。 DKM 針對這種情況提供了界面化的參數配置功能,並且能夠自動的部署到每個節點。

2高可靠配置

DKM 對關鍵的組件使用HA部署方案,避免單點失效的發生,同時DKH 對於組件的異常錯誤提供了自動恢復處理,最大限度的保證服務的可靠性。

3HDFS 高可靠

在標準配置中,NameNode 是HDFS羣集中的單點故障(SPOF)。每個羣集都具有一個NameNode ,如果機器或進程變爲不可用,羣集整體將變爲不可用,直到NameNode 在新主機上重新啓動或上線。Secondary NameNode 不提供故障轉移功能。 爲了讓“備用” NameNode 的狀態與“活動”NameNode 在此實施中保持同步,兩個節點均與一組名爲JournalNode 的獨立後臺程序進行通信。由“活動”NameNode 執行任何Namespace 修改時,它會持續記錄其中大部分JournalNode 的修改記錄。 “備用”NameNode 能夠從JournalNode 讀取編輯操作,並不斷監視它們以瞭解編輯日誌發生的更改。當備用節點發現編輯操作時,它會將這些編輯應用於自己的Namespace 。在發生故障轉移時,備用節點將確保首先從JournalNode 讀取所有的編輯操作,然後纔會將自己升級爲“活動狀態”。這確保了再發生故障轉移之前完全同步Namespace 狀態。

爲了提供快速故障轉移,備用NameNode 還需要擁有有關羣集中的塊位置的最新信息。爲實現這一目的,DataNode 配置了這兩個NameNode的位置,它們會將這塊位置信息和檢測信號發送給這兩個NameNode。

一次只能有其中一個NameNode 處於活動狀態,這一點對於HA羣集的正常運行來說至關重要。否則,Namespace 狀態會在兩者之間快速出現分歧,從而導致數據丟失風險或其他不正確的結果。爲了確保此屬性並防止所謂的“大腦分裂狀況”,JournalNode 一次只允許一個NameNode 成爲寫入程序。在故障轉移過程中,要進入“活動”狀態的NameNode 將接管JournalNode的寫入角色,這會有效地阻止其它NameNode繼續保持“活動”狀態,使得新的“活動”NameNode可以安全地繼續執行故障轉移。

DKH 默認開啓了HA . 用戶不用擔心此問題。

4YARN 高可靠

YARN ResourceManager(RM) 負責跟蹤羣集中的資源並安排應用程序(例如,MapReduce作業)。RM 高可用性(HA)功能以活動/待機 RM 對形式添加冗餘,以刪除此單點故障。此外,在從待機RM 到活動RM 進行故障轉移時,應用程序可以從其上次檢查點狀態恢復; 例如,在MapReduce 作業中完成的map 任務不在後續的嘗試中重新運行。這樣可以在不對運行中的應用程序產生任何重要性能影響的情況下,處理以下事件:

計劃外事件,如計算機崩潰。

計劃內維護事件,如在運行ResourceManager的計算機上進行的軟件或硬件升級。

RM HA 要求Zookeeper 和HDFS 服務處於運行狀態。RM HA 通過活動-待機RM 對的方式實施。啓動時,每個RM 處於待機狀態;啓動過程,但未加載狀態。轉換到活動狀態時,RM會從指定的狀態存儲加載內部狀態,並啓動所有內部服務。 管理員(通過CLI)或通過集成的故障轉移控制器(啓用自動故障轉移時)可促進轉換爲活動狀態。

DKH 默認開啓了Resource Manager HA 。用戶不需要擔心。

3、權限管理

對系統管理員,數據庫管理員及其他管理員必須授予不同級別的管理權限。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章