AIOps如何解放陷於規則泥潭的用戶(二)

前言導讀:上一篇文章AIOps如何解放陷於規則泥潭的用戶(一)已對IT運維過程中遇到問題進行了解讀,讓我們瞭解到了其中的緣由。那麼本篇文章,將探討易被忽視的規則“成本”問題,並將給出相應的解決方案。
在這裏插入圖片描述
一家企業,總會關注於其自身的銷售成本、市場成本、產品開發成本、合規成本和人力成本等。對於IT運維來說同樣如此,運維不僅需要承受着24x7的壓力,還要確保企業能夠避免系統延緩或停機造成的額外成本,以免阻礙業務發展和預定收入的獲取。

但是規則的成本呢?許多組織機構都依賴於傳統的監控系統,並使用規則機制發現潛在問題,以免最佳性能受阻。或者說這些企業的生死是建立在規則之上的,也因此值得探討規則的成本問題。

01 成本並非是討價還價
在這裏插入圖片描述
規則是一個簡單的概念,它明確了固定的預計輸入與預計輸出。其實在編寫第一條規則時,討價還價問題就不復存在,因爲規則只涉及一種情況。隨着IT系統性能不斷髮展,企業需要針對每個選項採用不同的規則,並檢查每個規則是否與集合中的其他規則一致。正如系列一文章所說,規則組合的的數量呈指數級增長,滿足此要求的計算機目前還沒問世。

瞭解規則的真實成本,需要不斷創建、檢查和修改規則,而這個過程是永無止境的。與此同時,規則維護還需要具備敏銳的洞察力,並能夠了解規則集的交互關係和細微差別。有效維護規則所需的技術知識和操作經驗,這是初級運維遠不能匹及的,還需資深的運維老兵親自上陣。

但是,運維專家的嚴重短缺會使企業陷入雙重困境,因爲沒有切實可行的方法來維護規則。隨着模塊、分佈式應用程序和設備虛擬化數量的增長,規則的數量也急劇增加。因此當規則無法按期工作,或規則直接存在衝突時,系統準確性會大受影響,運維人員也會淹沒在無關緊要的告警信息中。爲了解決告警效率的問題,運維工程師們經常會退出規則機制,以確定事件發生的根因。

儘管這會使他們積極主動而非消極被動地處理系統問題,但是一些分析師甚至會取消規則,結果可想而知,IT系統的可用性大大降低,停機時間加長,運維成本增加。

02 限制規則會引發風險
在這裏插入圖片描述
在實際的運維環境中,關閉某些規則的可能性仍然存在,雖然概率不到10%或20%,但是卻至關重要。而當SOC(安全運營中心)分析師將嚴重性過度歸根於特定告警時,一些不必要的告警會時常發生。通常,這種屬性會被強制編碼爲規則。雖然從表面上來看,故意避免無關的告警行爲很有成效,但是這也使得成本更爲繁重。

一些SOC分析師決定在源頭處過濾“無關”規則,以便處理關鍵告警,但是這種策略有一個致命的弱點,即大多數嚴重的系統中斷都不是嚴重告警造成的。而事實則剛好相反,因爲問題通常是嚴重性較低的事件造成的。監控工具僅顯示新問題的提示,如果提示的指示燈關閉,問題將無法檢測到。而當事件程度嚴重時,分析師將永遠不會看到問題。因爲發現的時候太晚了。

再舉一個嚴重阻礙微服務系統性能的示例。假設Kubernets DNS出錯了,使得服務運行中斷,這個事件的嚴重性便會被編碼到規則中去。這個規則也許對特定的微服務有意義,但它並不是導致其他微服務性能下降的原因或是後果。自行提升特定事件的嚴重性,可能會在早期誤導SOC響應,二元規則很容易導致走錯路徑去修復問題。

規則會隱藏其複雜性和成本。剛入門的話,規則會非常有吸引力,看起來也很簡單,一些支持者可能會聲稱規則比AI簡單得多。規則看起來具有可預測性,還有什麼比非真即假來得更直接呢?事實上,像化學、遺傳學和生命科學等科學領域,都是建立在非常簡單的物理定律之上的,雖然科學定律的真假可以直接模擬,但是規模卻會讓複雜度提升許多。

03 AIOps降低規則成本
在這裏插入圖片描述
當SOC分析師無法檢測並修復性能問題時,維護規則造成的混亂現象,會帶來潛在的、不可估量的成本。而破除規則困局的方法,便是採用科學的方法——AIOps,即使用人工智能和機器學習來解決規則應該處理卻處理不了的問題。

AIOps無需爲每種可能的事件組合創建規則,而恰恰相反的是,AIOps系統可以採集企業所有的運維數據,並能夠自行通過算法確定哪些事件重要,哪些不重要。不同於基於規則的系統,AIOps可以自我進行學習,而不必提前考慮每個輸入和輸出。因此,使用AIOps對於確保IT系統性能至關重要。使用AIOps可以去除與規則相關的成本,還能在確保系統性能方面做得更好。

作者:Phil Tee
來源:國外網站
編譯:林含飛
編譯過程中有所刪減

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章