深度解析大快DKadoop大數據運維管理平臺功能

之前幾周的時間一直是在圍繞DKhadoop的運行環境搭建寫分享，有一些朋友留言索要了dkhadoop安裝包，不知道有沒有去下載安裝一探究竟。關於DKHadoop下載安裝基本已經講清楚了，這幾天有點空閒把大快DKM大數據運維管理平臺的內容整理了一些，作爲DKHadoop相配套的管理平臺，是有必要對DKM有所瞭解的。

DKM 是DKHadoop管理平臺。作爲大數據平臺端到端Apache Hadoop 的管理應用，DKM 對 DKH 的每個部件都提供了細粒度的可視化和控制。通過DKM ，運維人員是可以提高集羣的性能，提升服務質量，提高合規性並降低管理成本。

DKM 設計的目的是爲了使得對於企業數據中心的管理變得簡單和直觀。通過DKM ，可以方便地部署，並且集中式的操作完整的大數據軟件棧。該應用軟件會自動化安裝過程，從而減少了部署集羣的時間。通過DKM 可以提供一個集羣範圍內的節點實時運行狀態視圖。同時，還提供了一箇中央控制檯，可以用於配置集羣。總結DKM 能夠提供的功能主要有以下幾點：

1.自動化Hadoop 安裝過程，大幅縮短部署時間；

2.提供實時的集羣概況，例如節點，服務的運行狀況；

3.提供了集中的中央控制檯對集羣的配置進行更改；

4.包含全面的報告和診斷工具，幫助優化性能和利用率；

基本功能：DKM的基本功能主要可以分爲四大模塊：管理功能，監控功能，診斷功能和集成功能。本篇我們就先來看以下管理功能：

1、批量部署

我們都知道Hadoop 本身是一個分佈式的系統，因此在安裝時，需要對每一個節點進行組件的安裝，並且由於是開源軟件，其安裝過程相對比較複雜，Hadoop 每個組件都需要做很多的配置工作，這一點相信各位深有體會。DKH 提供了DKM 來自動化安裝部署Hadoop 。大大縮短了Hadoop 的安裝時間，同時也簡化了安裝Hadoop 的過程。（DKHADOOP安裝步驟請參考此前分享的文章）

自動化安裝的過程如下：

1.安裝環境準備，下載DKM 以及DKH 的安裝文件，安裝JDK，yum 等基本軟件。

2.挑選一臺節點，安裝DKM ，用戶只需要啓動安裝腳本即可，通常情況下幾分鐘就能夠完成。

3.DKM 是一個web 應用，提供了基於瀏覽器的界面，用戶可以通過瀏覽器可視化的進行DKH的安裝部署。

4.通過DKM 界面，添加其他需要的安裝的節點，選擇要安裝的Hadoop 組件，以及每個節點承擔的角色，選擇安裝，DKM 會自動地將需要安裝的軟件分發到對應的節點，並完成安裝。

5.當所有節點的軟件都安裝完成之後，DKM 會啓動所有的服務。從上述的安裝過程可以看出DKH 的安裝主要體現兩個特點，批量化以及自動化。只需要在其中一個節點完成，其他節點都可以進行批量化的自動安裝。

2、集羣配置

（1）可視化參數配置界面

Hadoop 包含許多的組件，不同的組件都包含各種各樣的配置，並且分佈於不同的主機之上。 DKM 針對這種情況提供了界面化的參數配置功能，並且能夠自動的部署到每個節點。

（2）高可靠配置

DKM 對關鍵的組件使用HA部署方案，避免單點失效的發生，同時DKH 對於組件的異常錯誤提供了自動恢復處理，最大限度的保證服務的可靠性。

（3）HDFS 高可靠

在標準配置中，NameNode 是HDFS羣集中的單點故障（SPOF）。每個羣集都具有一個NameNode ，如果機器或進程變爲不可用，羣集整體將變爲不可用，直到NameNode 在新主機上重新啓動或上線。Secondary NameNode 不提供故障轉移功能。爲了讓“備用” NameNode 的狀態與“活動”NameNode 在此實施中保持同步，兩個節點均與一組名爲JournalNode 的獨立後臺程序進行通信。由“活動”NameNode 執行任何Namespace 修改時，它會持續記錄其中大部分JournalNode 的修改記錄。 “備用”NameNode 能夠從JournalNode 讀取編輯操作，並不斷監視它們以瞭解編輯日誌發生的更改。當備用節點發現編輯操作時，它會將這些編輯應用於自己的Namespace 。在發生故障轉移時，備用節點將確保首先從JournalNode 讀取所有的編輯操作，然後纔會將自己升級爲“活動狀態”。這確保了再發生故障轉移之前完全同步Namespace 狀態。

爲了提供快速故障轉移，備用NameNode 還需要擁有有關羣集中的塊位置的最新信息。爲實現這一目的，DataNode 配置了這兩個NameNode的位置，它們會將這塊位置信息和檢測信號發送給這兩個NameNode。

一次只能有其中一個NameNode 處於活動狀態，這一點對於HA羣集的正常運行來說至關重要。否則，Namespace 狀態會在兩者之間快速出現分歧，從而導致數據丟失風險或其他不正確的結果。爲了確保此屬性並防止所謂的“大腦分裂狀況”，JournalNode 一次只允許一個NameNode 成爲寫入程序。在故障轉移過程中，要進入“活動”狀態的NameNode 將接管JournalNode的寫入角色，這會有效地阻止其它NameNode繼續保持“活動”狀態，使得新的“活動”NameNode可以安全地繼續執行故障轉移。

DKH 默認開啓了HA . 用戶不用擔心此問題。

（4）YARN 高可靠

YARN ResourceManager(RM) 負責跟蹤羣集中的資源並安排應用程序（例如，MapReduce作業）。RM 高可用性（HA）功能以活動/待機 RM 對形式添加冗餘，以刪除此單點故障。此外，在從待機RM 到活動RM 進行故障轉移時，應用程序可以從其上次檢查點狀態恢復；例如，在MapReduce 作業中完成的map 任務不在後續的嘗試中重新運行。這樣可以在不對運行中的應用程序產生任何重要性能影響的情況下，處理以下事件：

計劃外事件，如計算機崩潰。

計劃內維護事件，如在運行ResourceManager的計算機上進行的軟件或硬件升級。

RM HA 要求Zookeeper 和HDFS 服務處於運行狀態。RM HA 通過活動-待機RM 對的方式實施。啓動時，每個RM 處於待機狀態；啓動過程，但未加載狀態。轉換到活動狀態時，RM會從指定的狀態存儲加載內部狀態，並啓動所有內部服務。管理員（通過CLI）或通過集成的故障轉移控制器（啓用自動故障轉移時）可促進轉換爲活動狀態。

DKH 默認開啓了Resource Manager HA 。用戶不需要擔心。

3、權限管理

對系統管理員，數據庫管理員及其他管理員必須授予不同級別的管理權限。

深度解析大快DKadoop大數據運維管理平臺功能

2、集羣配置

3、權限管理

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

lightdb數據庫超時相關控制參數

lightdb秒級增加列和刪除列（not null帶默認值）

Java ThreadPoolShutdown

Spring MVCD框架中調用HanLP分詞的方法

部分常用分詞工具使用整理

HanLP-實詞分詞器詳解

三天拿到阿里、頭條跟美團的offer，我做了這些準備

華爲系統早已開始研發，爲何現在才準備推出？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結