如何打造告警全生命週期管理系統?

上週四,嘉爲藍鯨產品總監蘇文老師爲我們帶來了精彩直播,從告警管理建設的現狀挑戰、體系介紹、如何建設告警管理平臺、告警管理的業務場景四個方面闡述了《如何打造告警全生命週期管理系統》這一主題。

一、告警管理建設的現狀和挑戰

1. 企業的監控體系建設現狀

企業監控體系建設的一般分爲四個階段:監控工具建設、統一監控建設、智能分析建設和主動防禦建設。

根據我們的調研情況,大部分企業的現狀都是在第一階段到第二階段之間,企業內已經建設有很多監控工具,都在思考如何管理這些監控工具。

2. 企業告警建設所面臨的挑戰

告警建設面臨諸多挑戰,主要有以下五個方面:

● 通過人工設置固定閾值,各系統設置標準不一,存在大量重複告警、誤告警。

● 缺乏全局視圖直觀瞭解應用系統告警整體情況和關聯影響範圍。

● 告警散落在各個監控系統中,導致查找告警原因,定位問題困難。

● 告警處理人工干預過多,系統聯動少,告警流轉慢。

● 告警過程無法追蹤,告警處理經驗沉澱難,告警處理效率低。

爲了解決這些問題,我們需要建設一個完善的告警管理系統。在介紹如何建設系統之前,我們先來介紹什麼是告警管理體系,這樣才能更有針對性的去做告警管理建設。

二、告警管理體系的三個方面

1. 告警事件管理的全生命週期(核心部分)

全生命週期又三個部分:事前、事中和事後。

事前主要做告警事件的預防。

事中快速發現和解決問題,快速恢復業務,保障業務連續性,降低損失。

事後追蹤並解決引發告警的根源問題,優化告警處理階段效率。

2. 告警事件管理的關鍵衡量指標

衡量告警管理的關鍵指標爲:MTTI、MTTA、MTTR、MTBF。通常情況下,我們會從整個告警時間的生命週期裏的不同時間節點來計算關鍵指標。

告警管理的根本目標是降低MTTA,縮短MTTR,提升MTBF,即快速發現並響應故障、快速定位並解決故障、減少故障告警發生,提升業務連續性。

3. 企業告警管理建設的成熟度參考

一般分四個等級:L1、L2、L3、L4;另外還有一個特殊的L0級。

L0指的是沒有告警,因此沒有納入整個告警管理的成熟度裏,此階段意味着可能沒有監控系統,或者有監控系統但沒有對應的報警檢測機制亦或是對應策略,導致沒有告警產生。

L1-L3均是告警產生後,對告警事件進行管理和分析;而L4是預防告警,將告警消滅於發生之前,是我們告警管理的終極目標。

介紹完告警管理體系的三大方面之後,接下來就可以思考怎麼樣去建設告警管理平臺。因爲告警系統屬於整個大監控體系中的一部分,所以如果要建設告警管理平臺,需要完善的考慮整個體系,有一個全面的規劃。

三、如何建設告警管理平臺

1. 監控體系全景規劃

數據採集

採集目標對象包含各種設備、服務、應用和業務資源,共分六層:基礎設施層、硬件設備層、操作系統層、組件服務層、應用性能層、業務運營層,對應着我們的指標管理體系。把需要監控的數據從這六層統一的採集到系統裏,採集的方式分第三方接入和直採接入。

第三方接入,即通過第三方監控系統,把數據再接入到新要建設的監控體系

直採接入,即通過採集方式比如說Agent、插件、協議等

數據鏈路

作爲一個管道負責接收採集到的數據,再進行數據的清洗,把一些非標準化的數據格式化,並提供數據存儲、檢索、計算、檢測等能力。

監控場景

由統一的數據鏈路支撐,整體規劃中會有資源監控、日誌監控、APM監控、RUM監控四大監控場景,覆蓋ITIM、Log、APM、RUM監控的整個體系,最後聯動CMDB實現各個場景數據的互聯互通。

統一告警中心

負責將各個告警事件接進來,不僅能夠接入自己監控系統裏的事件,還可以接入第三方監控系統的告警事件,匯聚到告警中心做統一的收斂分析和處理。

在整個研運一體化系統中,可以利用告警驅動周邊的系統實現進一步的自動化,比如說驅動標準運維去做自動化的處理,完成常規告警的自愈;還可以把告警事件流轉到ITSM中來,聯動整個處理流程等等。同時,各個監控場景和告警產生的數據,都可以提供接口供第三方消費,例如大屏系統、報表系統等。

上述整個監控體系都是構建在藍鯨基礎平臺上的,藍鯨基礎平臺主要提供了以下三個基礎能力:CMDB(模型&實例)、管控平臺(管道)、計算平臺(AI)。

2. 統一告警中心產品設計理念:以事件爲中心

統一告警中心產品設計理念以告警事件爲中心,圍繞告警事件有四大動作:接入、收斂、分析、處理。

其中分析涉及到和CMDB的打通聯動,豐富告警事件去支撐分析。對處理來說,最關鍵的點是告警管理過程中的流轉,無論是流轉到IT工單系統裏做協同還是通知到人等都是一個流轉的過程。

3. 統一告警中心產品架構設計

爲了支撐產品設計理念的真正的落地,支撐監控體系的建設,我們按如下邏輯設計產品架構,主要分爲3塊:

告警事件接入模塊

在告警源系統這部分採用插件的模式,通過擴展插件把所有的事件接入到告警管理平臺上來。

後臺事件流模塊

事件接入到統一告警中心後臺處理,和CMDB做打通,進行告警信息的豐富,支撐後續的策略處理和告警分析。在告警事件的處理和分派階段,和第三方系統打通,比如打通各種告警通知渠道進行告警通知,打通自動化平臺實現告警自愈,和流程平臺打通實現告警自動派單等。

告警管理用戶界面

主要提供各種策略配置的功能和告警展示、分析的視圖。

4. 統一告警中心後臺事件流轉邏輯設計

這是告警管理的產品裏最核心的業務邏輯,也體現了告警全生命週期管理的特性。從告警產生到告警關閉,經歷了告警接入、告警豐富、告警收斂、告警處理幾個過程。

嘉爲藍鯨告警系統的產品功能介紹

1.插件式告警接入,靈活擴展

擁有開箱即用的一些常規插件,靈活擴展,也可以自主開發一些插件去做擴展。

2.告警自動關聯豐富,補齊輔助信息

告警豐富可以通過CMDB豐富,也可以通過常規的豐富方案,讓告警事件信息更加齊全。

3.多重告警抑制,提升告警有效性

內置4種告警壓縮能力,大幅減少無效告警,平均告警壓縮率高達80%,有效防止告警風暴。

4.告警轉單自愈,助力業務快速恢復

對於一些告警屏蔽之後,留下的有效告警可以做轉單自愈,完成自動化告警處理。

5.告警自動分派升級,處理過程跟蹤

告警事件可以直接分派給指定的人,或者再未處理時升級給到其他人。分派的通知渠道已經內置7種,種類和數量較爲豐富。但如果企業有自己的IM系統,也支持通過擴展的方式擴展進來。

6.移動端告警管理,隨時隨地告警處理

對告警事件來說,很多時候工作人員很難做到每時每刻都待在電腦面前,因此爲了讓工作人員更加方便的處理告警,我們提供了移動端支持。

7.全面展現告警信息,輔助問題分析

告警詳情的呈現是爲了後續的分析做準備,共有基礎信息、拓撲分析、關聯告警、指標信息、流轉記錄五個層面。

8.多視角關聯分析,快速定位問題

除了告警的關聯拓撲之外,與藍鯨CMDB聯動之後還提供另外兩類拓撲:即模型之間的關聯拓撲和業務組成關係的業務拓撲。

9.多維度統計報表,全面掌握告警狀態

報表中體現了整個告警管理體系的兩個關鍵指標:MTTA和MTTR。這些指標的呈現能夠更好的提升告警處理的效率,告訴工作人員告警的響應是否及時、處理的能力是否到位。

四、告警管理業務場景

1. 防範告警風暴,讓運維人員專注於有效告警

主要是過濾無效告警,儘可能地呈現有效告警,可以從以下五方面的場景着手:自動去重、防抖抑制、關聯聚合、時間屏蔽和依賴屏蔽場景。

2. 告警精細管理,讓問題流轉處理更高效

主要體現在4大場景:自動關閉場景、自動分派場景、自動轉工單場景和告警自愈場景。

3. 告警影響關聯分析,讓問題定位更快速

針對告警分析相關的場景,通過基礎信息、關聯信息、告警時間軸、統計信息、拓撲關聯分析,讓問題定位更加快速。

客戶案例

某大型保險公司,通過使用我們的告警中心,實現了三種應用場景:告警集中管理、告警故障自愈和輔助根因分析。

1.告警集中管理

就是前面提到的全生命週期管理的一個核心作用,當時客戶在統計的時候,原始告警已有26萬條,收斂後降到5萬多條,收斂比例達80%,極大地避免了很多無效告警,提升了企業運維效率。

2.告警故障自愈

客戶接入了13個系統,真實觸發了134次,其中成功了114次,成功地比例達到85%。因此,故障自愈的場景並不是難以實現的,都是一些較爲簡單的場景,比如進程告警、端口報警等,這些都是直接通過我們的服務拉起或重啓實現的自愈,能夠解決企業超過五成的簡單故障問題。

3.輔助根因分析

因爲客戶有自己的想法,所以挖掘出了一種用法:不僅僅依靠我們來提供整個關聯分析的數據,還利用我們的告警自動處理的流程去抓取故障現場的數據。比如告警時觸發了抓取的流程,直接到機器上面去執行,把內存的檔信息保存下來。這樣在後續覆盤的時候,便於真正定位問題。在這個過程中,通過他們設置的規則觸發了15次自動抓取。

精選互動問答

問:多個來源的告警,內容怎麼標準化?比如一條告警會有多個字段去描述,但是每個告警的字段都不相同。

答:由告警源插件適配不同的告警源,進行格式清洗,最後將標準化的告警事件接入到告警中心。

問:統一告警是屬於統一監控的子模塊,還是獨立的模塊呢?如果是獨立的模塊,爲什麼說統一監控包含統一採集、統一檢測、統一告警、統一展示呢?

答:產品規劃上:統一監控是一個完整大監控系統,包含了資源監控、APM、RUM、日誌監控和統一告警多個大模塊。

產品開發上:各個模塊都有獨立的SAAS產品進行迭代,各個模塊之間會聯動打通,同時也支持通過插拔的方式組成一個完整的產品。

問:不同的系統告警信息如何發送到具體的接收人,多個告警源怎麼統一告警模板呢?

答:告警信息可以通過分派通知策略通知到策略指定的接收人,通知支持根據CMDB實例的負責人字段自動識別通知人進行通知。

接入的告警源已經經過了標準化,告警模板自然就是統一的,另外,告警通知模板的內容字段支持通過配置來進行定義。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章