上萬臺服務器 複雜運維場景下的主要痛點:
如何在告警風暴時壓縮告警
如何快速從大量告警中找到故障根源
如何提高不同運維小組的故障處理協作效率
如何實現對IT基礎設施的風險管理
基於上述背景下的痛點問題,一套以故障定位爲核心的運維生態體系的建立便成爲高逼格的不可或
缺:
統一故障信息入口,使用機器學習的算法對信息進行分類整合和推理,自動定位故障生成case
,設計開發統一故障處理平臺,通知工程師來平臺進行處理故障。
同時將所有數據進行沉澱分析,反饋給告警系統和質量管理系統,提高故障處理效率,加強基
礎設施風險管理。
而在這套生態體系中,故障自動定位技術便是體系是否能夠成功建立的核心要素。
故障根因自動定位簡要科普
故障根因自動定位系統爲人工智能的分支,屬於診斷性專家系統,專家系統通常包含:
人機交互界面
知識庫
推理機
摘自百度