監控報警是故障發現的重要一環,也是百度在 AIOps 方向的第一個切入方向,目前百度 AIOps 在監控報警方面已經孵化出兩個應用場景:智能異常檢測和智能報警合併。
如何支撐 AIOps 算法在監控告警系統的快速落地併產生業務價值,這對監控告警架構提出了很大的挑戰!本次分享將重點介紹百度監控告警系統在落地 AIOps 過程中遇到的架構挑戰以及相應的解決方案。百度監控告警系統主要由異常檢測、事件管理、通告發送三個子系統組成:
1、在異常檢測部分,我們將介紹如何支撐 AIOps 算法的離線實驗、近線測試、在線運行需求,以及處理多維度異常判斷過程中遇到的難點和解決思路
2、在事件管理部分,我們將介紹基於狀態機的事件管理模型如何能夠防止線上故障被遺漏
3、在通告發送部分,我們將介紹如何利用智能報警合併算法來應對報警風暴,以及如何保障通告消息的零丟失
最後,將總結監控報警系統在落地 AIOps 算法過程中的實踐經驗,以及我們對 AIOps 的思考。
內容大綱:
1、落地 AIOps 對報警架構的挑戰
2、報警系統的業務模型
3、異常判斷子系統
- 智能異常檢測的研發流程
- 多維度異常判斷模型
- 離線開發框架和近/在線運行平臺
4、事件管理子系統
- 報警事件模型
- 基於狀態機引擎的報警升級機制
5、通告發送子系統
- 報警智能合併
- 報警流控方案
6、AIOps 落地實戰經驗
聽衆受益:
1、瞭解監控報警的業務痛點和對自身架構的挑戰
2、瞭解 AIOps 落地過程中的思考和和工程實踐經驗