雲計算管理三大利器：Nagios、Ganglia和Splunk

綜合利用Nagios、Ganglia和Splunk搭建起的雲計算平臺監控體系，具備錯誤報警、性能調優、問題追蹤和自動生成運維報表的功能。有了這套系統，就可輕鬆管理Hadoop/HBase雲計算平臺。

雲計算早已不是停留在概念階段了，各大公司都購買了大量的機器，開始正式的部署和運營。而動輒上百臺的性能強勁的服務器，爲運營管理帶來了巨大的挑戰。

如果沒有方便的監控報警平臺，對於管理員而言猶如噩夢，每天都將如救火隊員一樣，飛快地敲擊鍵盤，用原始的Unix命令在多臺機器中疲於奔命。
如果沒有好的日誌管理平臺，對於開發者Troubleshooting更是一件淚流滿面的事情。
而如果你是運維團隊的總負責人，簡潔清晰的Report則非常重要。Stakeholder們動不動就可能問起系統的SLA、機器的利用率等諸多問題，畢竟，公司爲此投入了巨大的資金和人力。

朋友們，當我們管理起公司寄予厚望的雲計算平臺時，當我們面對如此多充滿挑戰的實際問題時，該怎麼辦？

概述

我們在搭建趨勢雲計算平臺時，遇到了很多的問題和挑戰。開始搭建時，第一次來了那麼多性能強勁的機器，我們在感到興奮的同時，也不免有些顧慮。大家坐在一起討論，問題就列了滿滿一白板。

出了問題怎麼辦，有沒有預警機制？
有沒有可視化的管理界面？
管理平臺需要自己開發嗎？開發難度有多大？
有沒有開源的管理工具？
那麼多日誌分佈在各個機器上，有沒有更有效的方法管理？
能否生成好的報表？
機器宕機，管理員能否收到短信通知？
如何做性能調優？
擴容升級時，能否給出依據？

帶着這些問題，我們開始了自己的雲計算平臺管理和運營之旅，一路走來，收穫頗豐。現在基本上形成了如圖1所示的一整套雲計算平臺監控體系。

圖1 雲計算平臺監控架構

在這個系統中，我們綜合利用了Nagios、Ganglia和Splunk，搭建起雲計算平臺監控體系，使其具備錯誤報警、性能調優、問題追蹤和自動生成運維報表的功能。有了這套系統，我們終於能夠輕鬆管理Hadoop/HBase雲計算平臺了。接下來將簡單介紹它們的特點和功能。

Nagios：雲計算平臺的智能報警器

總不能天天盯着機器看吧，因此我們首先關心的是機器的監控與報警。最理想的境界是：如果機器出故障了，我能第一時間處理；如果機器沒有問題（最好永遠沒有問題），我能去喝茶、釣魚和睡大覺。

發現機器有沒有問題，對我們而言不是什麼難事。寫個腳本，Ping一下IP，Telnet每臺機器的Service端口，如果增加了新機器就改改配置即可。但這樣也太原始了吧，可視化效果差，不好維護，沒有層次，不好管理，出不來報表，總不能老是用Excel人工寫報表吧。有沒有更好的方法呢？

有，你可以用Nagios。

Nagios是一個可運行在Linux/Unix平臺之上的開源監視系統，可以用來監視系統運行狀態和網絡信息。Nagios可以監視所指定的本地或遠程主機以及服務，同時提供異常通知功能。

Nagios可以提供以下幾種監控功能。

監控網絡服務（SMTP、POP3、HTTP、NNTP、Ping等）。
監控主機資源（處理器負荷、磁盤利用率等）。
簡單的插件設計使得用戶可以方便地擴展自己服務的檢測方法。
並行服務檢查機制。
具備定義網絡分層結構的能力，並使用“parent”主機定義來表達網絡主機間的關係，這種關係可被用來發現和明晰主機宕機或不可達狀態。
當服務或主機問題產生與解決時將告警發送給聯繫人（通過電子郵件、短信、用戶定義方式）。
具備定義事件處理功能，可以在主機或服務的事件發生時獲取更多問題定位。
自動的日誌回滾。
可以支持並實現對主機的冗餘監控。
可選的Web界面用於查看當前的網絡狀態、通知和故障歷史、日誌文件等。

Nagios最好用的地方就是它將這些每天管理員做的工作自動化，你只需設定好要監聽的端口即可，它會默默地工作，幫忙定時地去檢測服務端口的狀態，一旦發現問題，會及時發出報警。報警可以是電子郵件也可以是手機，從而使得管理員第一時間就能收到系統的狀況。

Nagios的報表功能也很強大。管理員可以很容易地得到每天、每週和每月的Service運行狀況。

圖2 SPN 後臺運行的所有Service的當前狀態

如圖2所示，紅色部分清楚地標註有問題的機器，點開鏈接，就可以得到有問題機器的情況。雖然在HBase中，幾臺Region Server宕機不會對整體服務產生大的影響，但多少會影響到系統的Performance。而且，如果某幾臺Region Server頻繁宕機，對整個系統的穩定性也會產生不好的影響。有了Nagios，我們可以快速定位有問題的機器，及時地將一些機器移除出HBase系統，待調整好了再上線運行，以保證系統的穩定性。

現在，Nagios已經成爲了很多公司必備的監控工具。只需要簡單地配置，就可以實現強大的功能，將管理員從日常煩瑣的工作中解放出來。

有了Nagios，哪怕就是管理上千臺機器，也不會手忙腳亂，而是有一種統領千軍、運籌帷幄的感覺。

Ganglia：看到雲計算平臺的方方面面

Nagios的確不錯，但你是不是真的可以喝茶、釣魚、睡大覺呢？顯然還不行。有了Nagios，你基本上可以做個優秀的救火隊員，能在事發第一時間到達現場、處理事故。但如何防患於未然，真正做到運籌帷幄、遊刃有餘呢？

我們需要更加精確的數據，能夠看到雲計算平臺的方方面面，能根據這些數據，做出性能調整、升級、擴容等的決策，從而保證Service能夠滿足不斷增長的業務需求。

這時候，你需要Ganglia。

Ganglia是UC Berkeley發起的一個開源實時監視項目，用於測量數以千計的節點，爲雲計算系統提供系統靜態數據以及重要的性能度量數據。Ganglia系統基本包含以下三大部分。

Gmond：Gmond運行在每臺計算機上，它主要監控每臺機器上收集和發送度量數據（如處理器速度、內存使用量等）。

Gmetad：Gmetad運行在Cluster的一臺主機上，作爲Web Server，或者用於與Web Server進行溝通。

Ganglia Web前端：Web前端用於顯示Ganglia的Metrics圖表。

Hadoop和HBase本身對於Ganglia的支持非常好。通過簡單的配置，我們可以將Hadoop和HBase的一些關鍵參數以圖表的形式展現在Ganglia的Web Console上。這些對於我們洞悉Hadoop和HBase的內部系統狀態有很大的幫助。

在Hadoop的conf文件夾下面，找到hadoop-metrics.properties，配置好Ganglia的Server即可。這裏要注意，Ganglia 3.0和Ganglia 3.1的區別，它們使用了不同的class。

dfs.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
dfs.period=10
dfs.servers={Ganglia_Server}:8649

有了這些圖表，Hadoop和HBase就不再是一個黑盒。無論是Hadoop的Namenode、Datanode，還是HBase的MasterServer、RegionServer任何時刻的情況，都會一目瞭然。由於圖標的跨度可以是小時、天、月甚至是年，這樣，就可以非常方便地定期生成周報、月報和年報。同時，根據圖中Metrics的狀況，我們可以通過調整參數、增加內存和硬盤、增加機器等的方法調整單個機器或者整個Service的性能。

圖3 Hadoop其中一個DataNode的Metrics

Nagios 最大的問題在於不能洞悉到Service內部的狀況。像Hadoop、HBase這樣的分佈式系統，一個節點的故障並不等於整個Service的故障，影響的只是Service的性能。所以，在測定Service的SLA時，我們不能以某一臺機器的故障作爲Service故障的評判標準。比如在我們的HBase SLA的設定上，我們定義了HBase Service完全不能工作的評判標準如下。

Master Server 聯繫不上。
所有RegionServer 都無法聯繫上。
-ROOT- 表無法訪問。
.META. 表無法訪問。

圖4 Ganglia對Hadoop/HBase使用情況的監測

那麼，我們就可以根據這個規則定義SLA，通過定期調用HBaseAdmin相應API ，將測試的結果發給Ganglia。採用同樣的方法，我們還可以自定義一些規則，監視HBase Master、Zookeeper等的情況。

通過這些方法，我們完全能夠針對Hadoop/HBase使用的實際情況，做出Service級別而不是機器級別的監控系統並生成報表。

此外，Ganglia還可以通過Server反饋回來的Load信息，給出各個機器的Load情況，給我們做升級和擴容提供依據。

如圖5所示，Ganglia分別會用不同顏色，標註出當前時刻的機器Load分佈情況。如果Load過重，就應該檢查機器的具體使用情況。

圖5 HBase Cluster Load Metrics

Ganglia的安裝配置，可以參考這裏。

Splunk：像查Google一樣查日誌

有了Nagios和Ganglia，算是成功了一大半。作爲一名優秀的管理員，我們需要具備一定的Troubleshooting能力，對一些常見的問題能給出解決方案。那麼，對日誌的分析就必不可少。

但Hadoop/HBase的日誌分佈在各個機器上面，而日誌之間關聯性強。Client端的錯誤有可能是Region Server引起，而Region Server的錯誤有可能是Zookeeper導致。有沒有一個統一的日誌管理平臺呢？

衆裏尋它千百度，驀然回首，我們找到了Splunk——日誌界的Google。

很遺憾，Splunk不是開源的，但它的免費版本提供每天500MB日誌索引。如果數據量較小，通過定義好Log的級別，基本上也能滿足需求。但對於數據量較大的公司，就有些捉襟見肘。

Splunk支持AdHoc的日誌搜索，而且可以與Nagios配合使用。比如Nagios報警某臺RegionServer端口不可達，我們收到Notification後，登錄Splunk，直接搜索shutdown和host名稱，找到RegionServer退出的日誌。點擊詳細信息，分析日誌，就能快速定位問題。如圖6所示。

圖6 Splunk與Nagios配合使用進行日誌搜索

對Hadoop和HBase有了進一步瞭解後，我們可以利用Splunk實時檢測日誌中的關鍵字，定義關鍵字規則，如監控“shutdown”、“quit”、“ERROR”、“Zookeeper Session Expired”等，一旦出現，利用Splunk的Notification功能，發出郵件通知管理員，管理員通過Splunk定位問題，就可以在系統真正出現問題之前，對系統進行調整，防患於未然。

具體Splunk的設置，可以參考這裏。

總結

搭建一套雲計算平臺，強大的監控管理系統是必不可少的。當然，任何工具都不是萬能的，在實際維護過程中，我們也發現，Nagios和Splunk經常出現誤報，如果規則定義得不好，大量的警報郵件如潮水一樣涌來，反而掩蓋了真正的問題。可以說，在雲計算平臺的運維管理上，沒有一勞永逸的事情，隨着規模的不斷增大和應用的不斷多樣化，需要大家不斷地實踐和總結。

【作者簡介】作者楊俊華，趨勢科技研發中心資深開發工程師，2009年至今一直從事Hadoop和HBase開發和運維工作，關注Hadoop開源社區的發展。

雲計算管理三大利器：Nagios、Ganglia和Splunk

HTML頁面關於高分屏的設置

北歐瑞典挪威芬蘭瑞士TikTok海外網紅與YouTube博主的合作模式

歐洲英國德國法國TikTok與YouTube海外網紅達人的完美合作策略

druid數據源 xml配置

開源命令行系統監視工具：glances

企業IT運維人員在變革的雲環境下該如何生存？

優化GNU/Linux桌面安裝的九個步驟

用SHELL腳本來防SSH和vsftpd暴力破解

新接手一個電商網站如何進行網站優化

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結