智能運維繫列(七)| 化繁爲簡:業務異常的根因定位方法概述

根因定位分析(RCA)是智能化運維(AIOPS)一個重要且難於實現的領域,涉及到歸納分析和演繹推理的相互結合,是從大數定理到邏輯性完備鏈條推理的綜合應用。分佈式架構的海量數據爲相關分析奠定了基礎,但業務異常案例相比於龐大的指標/日誌數據卻顯得鳳毛麟角,因此需要具備從相關性到因果性的強AI能力:基於運維領域知識進行演繹推理,同時因果推導的過程和結論要具有可解釋性便於覆盤分析和不斷優化。

微衆銀行採用了自主可控的分佈式架構,基於大量低成本的PC server和開源組件構建複雜的銀行系統爲億級客戶提供了豐富多樣的金融服務。在數量維度,截止2019年底,微衆銀行日金融交易峯值達到了近6億筆。在質量維度,微衆銀行不斷挑戰金融系統質量的極限,提出了電信級99.999%的全年可用率目標,對故障處理方面對異常定位和恢復時長提出了更高要求,力爭實現異常發現後的秒級定位的目標。

分佈式架構增大了系統的規模和複雜度,一個業務功能由幾十個系統服務組成,軟件架構和依賴關係十分複雜,同時這些系統服務由大量的主機/容器承載,與衆多數據庫、中間件及平臺組件相關,涉及龐大的基礎資源。分佈式架構增大了異常定位的難度,依賴人工針對大量數據進行相關分析和跨領域逐一排查的工作方式很難滿足定位時效要求,因此運維人員希望有個智能機器人可以在業務異常的時候快速準確的定位問題以便及時恢復業務。

原文鏈接:【https://www.infoq.cn/article/KdU36RwjbJkXjMLdd1aq】。未經作者許可,禁止轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章