智能運維繫列(十)| 淺析根因告警的系統分析法

隨着分佈式技術的快速發展及廣泛應用,系統之間的調用不斷增多,各服務之間的依賴錯綜複雜,現實場景中也經常出現一次交易中包含十餘次系統間服務調用的情況。當交易發生異常時,多個系統的運維人員往往同時排查各自的系統,然後彙總分析結果,按照調用順序分析,最終確定異常系統。

然而,這樣的常規操作在面對海量交易的時候,複雜性將指數級上升。在大規模的分佈式架構下,依賴傳統的運維方式無法實現快速的根因定位。因此微衆設計了一種自動化、智能化的根因定位方法。本文中將介紹在異常時,告警風暴發生後,如何進行根因告警分析。根因告警分析主要包括原始證據收集、證據分類分析、證據強度分析、構建分析圖譜、根因告警推理這五個步驟

本文收錄在專題《智能時代下的運維》系列 。

原始證據收集

收集原始證據是根因告警分析的第一步。異常事件發生時,系統立即啓動證據收集任務,從告警列表中搜集異常開始前一段時間內(當前爲5分鐘)的記錄,以保證告警與異常有充分的時間相關性。此外,爲了降低告警噪音,我們只選取較嚴重的minor級別及以上(告警級別由低到高分別爲info、warning、minor、major、critical)的告警作爲原始證據。除告警外,通常還會有其他數據源中的數據作爲告警的補充,目前主要是一些變更操作記錄。原始告警經常會將關鍵信息展示在告警描述或告警標題中,便於運維人員閱讀,但對於系統來說,結構化數據顯然更適合分析。具體的證據收集流程如下圖:

原文鏈接:【https://www.infoq.cn/article/m78zwQL2Nc4sdpapCXpg】。未經作者許可,禁止轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章