智能運維繫列(八)| 事件指紋庫:構建異常案例的“博物館”

博物館爲人類留存珍貴的記憶,以史爲鑑方可開創未來。在運維領域,是否也需要一個類似“博物館”的場所,來記錄異常案例,從而助力尋找隱藏的根因定位規律呢?

在微衆銀行的運維實踐中,運維人員結合了大量的長期歷史異常數據,基於知識圖譜,構建了一個異常案例的“博物館”,實現了根因的輔助定位,並搭建起一個監督學習框架,既能讓機器自動學習,又能以恰當的方式融入專家經驗,從而助力運維人員快速精準地定位、解決問題。本文就針對構建該“博物館”的過程及其應用進行詳細說明,如異常案例包含哪些數據、如何存入圖譜中、如何進行歷史根因的推薦等。

前文回顧

專題 | 智能時代下的運維

歷史事件對比流程

當前智能運維中的根因定位大多從某一個具體和方面入手去推斷異常,如日誌的根因定位,未能做到宏觀的比較。然而,現實中的異常需要分析的維度非常廣,包括且不限於告警、接口指標曲線、日誌、應用版本發佈、SQL操作、推廣活動、應用變更以及業務批量操作等。同時,新案例也不會跟歷史案例進行對比,白白浪費了歷史案例的寶貴經驗。

圖1 常見的異常分析維度

因此,我們需要一個更綜合的方法,對比歷史相似案例進行根因定位,建立一套實時存儲、抽取特徵、對比指紋、推薦根因的解決方案,輔助當前的分析。一個完整歷史案例對比過程包括以下三個步驟:

原文鏈接:【https://www.infoq.cn/article/4hxfWtcfoNjz7jJRfxZQ】。未經作者許可,禁止轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章