扎心的運維告警

扎心的運維告警

如何最佳的配置“告警”
是每一個運維夥伴工作中面臨的棘手問題
運維告警

隨着企業數字化轉型的深化,許多行業都捲入了數據爆炸的洪流之中。健康大數據、金融大數據、政務大數據等等…而運維從業者這一羣體,與數據的關聯更加緊密。

當下APM產品逐步普及,運維夥伴可以輕易將所需關注的數據進行可視化的展現,對業務的變化可以做到一目瞭然。但同時,也給自己套上了“緊箍咒”,監控平臺的“紅色標識”,郵箱、短信收到的告警提示,緊牽着運維夥伴的神經。

問題也隨之而來,如何最佳的配置“告警”,是每一個運維夥伴工作中面臨的棘手問題。

業務越來越複雜,越早的發現局部小問題,才能更好的保障業務的運行。

如何實現精細化的告警?

“可用性”是判斷應用健康狀況的一項重要指標。但這一項指標告警可能存在一些遺漏及誤報,比如在金融行業常見的前置應用到核心應用這一架構中,當核心應用的“成功率”、“響應率”等指標正常時,是否即可判定應用正常?

實際情況中,核心應用通常承載許多程序模塊,當其中某一程序模塊出現問題時,而整體的指標在正常的範圍時,“可用性”告警可能就失效了。

這一場景下,“過濾器”即可發揮出價值。

“過濾器”可通過一組搜索條件,在已歸類好的交易裏將我們關注的某種特徵的交易篩選出來,例如IP端口、不同交易渠道、不同交易類型等維度,再結合運算,做單獨的分析,即可實現更加精準的告警配置。

舉例來說,在配置高危事件告警時,可通過監控關鍵交易及關鍵節點的性能指標,對交易中出現的關鍵錯誤碼的重點識別來實現對高危事件的告警。當然,這僅是“過濾器”應用的冰山一隅,在面對更加複雜的場景時,“過濾器”有更大的發揮空間。

隨着業務的增長、告警的精細化要求,監控的需求越來越大,傳統的配置方法顯然無法滿足,如何應對?

當需要對數據按照維度進行過濾時,當一個維度下的值成千上萬時,當一些值只在離散的時間段內出現,動態增減,人工難以及時響應調整時,想實現對其全面的監控便會十分的困難。潛在的巨大工作量更是難以承受。

此時,“聚合維度告警”挺身而出。通過聚合維度告警,在設置告警對象時,不必再人工對要監控的所有值逐個的指定,只需告訴監控系統所關注的維度,該維度下所有值均會按照告警條件進行監控,並且可以通過例外值的獨立設置,確保監控的精準與可靠。

業務在變,監控需求也在變,告警能不能更加智能?

絕大多數的監控系統都是通過閾值來實現告警的,閾值是固定的,而業務卻是不斷變化的,隨之而來的問題便是告警的泛濫,隱患不言而喻。

近年,很多企業也開始嘗試“去閾值”,動態基線的科學性自然成爲了舉足輕重的大事。

在即將發佈的EZSonar4.1版本中,華青融天優化了原有的“動態基線告警”算法。優化後的AI算法基於模型多週期因素綜合考慮,管理員不需要再額外配置其他參數,在指定需要監控的指標後,便可以自動地實現學習和監控。

運維之路,艱苦漫長,告警的持續改進也不能一蹴而就,運維夥伴需要不斷的優化、不斷的總結。

華青融天亦身先士卒,通過不斷的更新、迭代產品,助力運維夥伴。

華青融天自2007年成立,一直致力於IT智慧運營的產品研發和技術服務,以AI驅動IT智慧運營,發展出一個平臺、三個業務線產品:業務運維EZSonar、安全運營EZAccur、業務洞察和行爲分析EZUBA,全力爲用戶打造一個高粘度的實時大數據平臺。
目前,公司擁有數十項發明專利、技術資質、軟件著作權以及多項自主知識產權產品,並與清華、北大、北航等院校開展產學研合作,共建“人工智能綜合實驗室”
“北航大數據與智能安全管理聯合實驗室”。
擁有包括招商銀行、中信銀行、國開行、平安集團等在內的衆多客戶,行業遍及金融、保險、稅務、醫療、航空、軍工等十多個領域。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章