如何改善監控問題,試試打造企業統一監控平臺體系!

微信圖片_20191118133756.jpg

上了一定規模的企業裏,在IT運維管理方面一般都上線了相應的監控工具,例如:基礎系統監控、網絡監控、機房動環監控、應用性能監控、日誌監控等。但是可能每隔個1~2年,企業就會發現監控工具可能滿足不了當下的需求了,又會進行新一輪的監控產品選型和引進的過程,以此循環往復。



企業監控的現狀&問題


如何監控?

  • 從動環到硬件到軟件到應用到用戶,監控對象多且雜,如何一一覆蓋?

  • 針對存量監控工具如何消化?

  • 監控工具之間的孤島要如何處理?


如何告警?

  • 告警太多,熟視無睹,如何沉澱有效告警?

  • 系統越來越大,運維成了摸象的盲人,怎樣看到監控全局?


如何處理?

  • 告警處理無記錄,和企業運維流程管理脫節,怎樣形成知識沉澱?

  • 告警處理純靠手動,每個月都在徒手處理相同的故障,如何避免?

                                             

1.png


  • 企業IT業務和技術發展太快,監控能力跟不上;

  • 產品化監控建設思路,導致存在各種監控煙囪;

  • 市場監控產品現狀和運維人對於監控認知的誤區;


如何解決呢?首先需要我們認清以下3個關於企業IT監控治理的客觀現實:


  • 企業IT監控治理的目的是爲了及時發現問題,解決問題,直至預測問題,不是爲了整合監控系統。


  • 企業IT架構現在很複雜,未來更復雜,難以通過1~2個監控產品就解決所有的監控訴求;也不存在這樣的產品和廠商,必然各有所長。


  • 新的業務、系統和場景催生新的監控需求(例如容器),企業未來監控一定是多種監控產品並存,構建功能可持續成長的監控平臺勢在必行


2.png

在認清監控治理的現實的基礎之上,需要實現監控建設的思路的轉變:由產品化思路向平臺化思路的轉變


由要找一個大而全的監控產品,囊括全部的監控訴求……轉變爲需要一個具備功能生長性的監控平臺,來承載核心監控訴求,並能統一集成外部的各種監控產品,服務於業務監控的目標……。


3.png

構建功能可持續成長的監控平臺,關鍵在於監控平臺需要具備PaaS屬性:


監控iPaaS層

我們稱之爲監控平臺層,負責提供面向各類監控對象的基本的監控採集、存儲、分析和告警的能力和工具;同時需要提供PaaS集成能力,能夠對接和集成外部監控工具和系統


監控aPaaS層

我們稱之爲監控場景工具層,通過調用平臺層的監控能力和監控工具,面向具體的應用和業務,提供組裝式的、複合的監控場景工具,例如:統一告警中心、監控可視化中心、故障自愈處理中心、轉工單處理等。

4.png

回到文章開頭的問題,基於監控平臺+監控場景的模式,我們能夠實現整體的監控平臺體系的建立:

5.png


如此,則能夠實現:

  • 各類IT對象的監控需求的覆蓋,並且能夠通過集成方式有效利用存量的監控工具,實現監控數據之間的共享和融合;


  • 通過告警中心結合CMDB數據,實現面向業務和應用的有效告警的沉澱,並作爲最終的告警輸出到外部的可視化系統、通知系統和工單系統等;


  • 基於監控平臺與ITSM系統,實現有效告警的轉工單處理,實現告警處理的跟蹤和知識的沉澱;基於監控平臺與自動化工具的集成,實現常規告警的自動處理和故障恢復。


重塑企業IT監控治理格局

6.png

如此一來,基於平臺化監控體系,我們就能夠解決文章開頭部分的問題,實現:多采集源兼容、監控告警統一關聯處理、監控邏輯分層、監控對象靈活擴展、監控架構解耦,避免過往隔三差五重複建煙囪的企業IT監控建設模式,實現企業IT監控資源的有效整合,實現真正面向業務及應用的整體監控,重塑企業IT監控治理新格局。


作者:趙海兵


文章回顧

雲計算 | 數據在雲上安全嗎?DDoS***怎麼辦?

如何基於TAPD實踐Scrum的敏捷開發?

嘉爲出席GOPS全球運維大會:運維巔峯時代,研運中臺或是唯一選擇

錯誤提示:網絡連接問題?試試用netstat監控網絡連接!

2019年嘉爲研發運營一體化技術中臺落地研討會完美收官!


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章