兩篇論文入坑AIOps異常檢測

AIOps簡介

以下部分內容來源於清華大學裴丹教授發表在《中國計算機學會通訊》第13卷第12期的專欄《基於機器學習的智能運維》

我們都知道,當代社會生活中的大型軟硬件系統爲了確保能夠安全、可靠地運行,需要有專業的運維人員來進行系統的部署、運行和維護。尤其是隨着互聯網產業的發展,互聯網公司業務的穩定運行和公司的利益密切相關,服務的不穩定甚至崩潰往往會導致巨大的經濟損失。

微博服務器崩潰

微博服務器崩潰大家都不陌生

裴丹教授在專欄中簡要概括了運維工作發展的歷史,在這裏總結如下:最早期是手工運維階段,運維人員需要監控產品的運行狀態、性能指標,進行產品上線、服務變更等工作,運維人員的工作量隨着產品數量線性增長,大部分工作都是低效的重複,無法滿足互聯網產業發展的速度;第二個階段是自動化運維階段,運維人員開始編寫自動化腳本來進行一些重複性的工作,這些腳本可以用於系統監控和在人工監督下進行自動化處理,這一做法一方面減少了人工誤操作的可能性,另一方面也大大提高了效率;第三個階段是運維開發一體化階段,也就是我們熟知的DevOps。在這一階段不再硬性區分開發人員和運維人員,也即,由開發人員來進行系統異常的定位分析和處理,這樣做的好處是在出現問題後能夠迅速找到原因、解決問題。

我們可以從運維工作發展的歷史中看到,運維工作是在朝着自動化、高效化方向不斷髮展的。隨着機器學習算法在各個領域的普及,我們不禁會想這樣一個問題:運維工作能不能智能化呢?答案當然是可以的,這就是這裏我們所要說的AIOps——Artificial Intelligence for IT Operations,即智能運維。在之後的內容中,我們會混用智能運維和AIOps這兩個術語,它們表示相同的含義。智能運維出現的意義在於,目前的自動化運維主要基於人爲制定的規則,隨着互聯網數據的膨脹和業務的多樣性,這種由運維專家總結的規則逐漸變得力不從心,在大規模的運維場景下會十分低效。而機器學習算法可以讓我們從海量的運維數據中學習規則,進而輔助甚至代替運維人員進行分析、決策和控制。絲毫不用懷疑,智能運維一定是運維領域未來幾年的重點發展方向,無人值守運維是運維工作的最終發展目標。所以,對智能運維的研究無疑意義重大的,而現在,還正處於起步階段,值得我們的關注。

AIOps中的關鍵問題

智能運維領域中需要研究的關鍵性問題很多,裴丹教授將它們分爲了三類:針對歷史事件的、針對當前事件的和針對未來事件的。再次僅對這些問題做以列舉,感興趣的朋友可以閱讀裴丹教授的原文獲取更詳細的信息。

  • 針對歷史事件:瓶頸分析、熱點分析、KPI聚類、KPI關聯關係挖掘、異常事件關聯關係挖掘、全鏈路模塊調用鏈分析、故障傳播關係圖構建等。
  • 針對當前事件:異常檢測、異常定位、異常報警聚合、快速止損、故障根因分析等。
  • 針對未來事件:故障預測、容量預測、趨勢預測、熱點分析等。

其中加粗的異常檢測問題是我們這個系列文章所討論的問題。

AIOps中的異常檢測問題

對於互聯網服務來說,業務指標曲線,或者說KPI曲線,可以很好地反映服務的運行狀態。因此,監控KPI曲線並發現KPI曲線中出現的異常,是運維人員的重要工作。在智能運維出現之前,對於KPI曲線的監控主要以設定閾值的方式進行,例如,對於某條業務曲線,當它的值大於或小於某個運維人員根據經驗設定的閾值時,系統會發出告警,提醒運維人員服務可能出現了異常情況,運維人員再進行更進一步的分析。這種方法的弊端顯而易見,那就是並不是所有異常情況都可以用既定的閾值來衡量。比方說,很多業務曲線都會有以天爲單位的週期性,即在每天的某些時候偏高,在其他時候偏低(如訪問量曲線)。某條曲線在平常應該低的時候出現了高峯,這顯然可能發生了異常,但這種情況就很難用閾值來描述,否則曲線在正常應該偏高的時候也可能會被判斷爲異常,而這不是我們希望的結果。因此,我們希望用機器學習的方法,結合以往的異常數據,得到某種異常檢測算法,以代替先前人爲制定的異常檢測標準,提高異常檢測的準確率,進而提高運維工作的效率。由於KPI曲線基本都是時間序列數據,因此異常檢測問題可以看做是一種特殊的時間序列分析問題。另一方面,機器學習算法需要使用大量的異常數據,因而異常檢測問題同時也是一個大數據分析問題。

一些KPI曲線異常示例

一些KPI曲線異常示例,紅圈標出部分爲異常。 圖片來自Opprentice論文。

在這個系列文章中,我選取了入坑AIOps異常檢測問題值得一看的兩篇論文。通過對這兩篇論文內容、思想的概括和解釋,希望大家可以對異常檢測這個領域的研究思路和進展情況有一個基本的瞭解。這兩篇文章是:

其中後一篇文章來自清華裴丹教授的Netman實驗室。實驗室主頁中有很多和AIOps相關的參考資料,包括裴丹老師在清華開設的智能運維相關課程的資料和實驗室工作等,在此推薦給大家。

參考資料

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章