智能巡檢告警配置最佳實踐

簡介：智能異常分析的檢測結果通過 SLS 告警功能輸出到用戶配置的通知渠道。在智能巡檢場景中，單個任務往往會巡檢大量的實體對象，涉及到的對象規則很多，我們通過SLS新版告警可以實現較好的對於巡檢事件的管理。

智能異常分析的檢測結果通過 SLS 告警功能輸出到用戶配置的通知渠道。在智能巡檢場景中，單個任務往往會巡檢大量的實體對象，涉及到的對象規則很多，我們通過SLS新版告警可以實現較好的對於巡檢事件的管理。

巡檢事件基礎結構

在這裏，我們先簡單看下巡檢任務的基本邏輯：

對於單個巡檢作業而言，內部包含N個實體的巡檢，每個巡檢實體對應一個巡檢模型，其中任意一個異常事件產生後，都會通過告警系統通知到用戶，因此我們需要有能力通過不同的方式將結果進行分發和管理。

我們先看下巡檢事件的基礎結構，具體的內置模板如下所示：

## 數據源
+ Project: ${results[0].project}
+ LogStore: ${results[0].store}

##  異常對象
+ Entity: ${labels}

## 異常程度
+ Score: ${annotations.anomaly_score}

## 異常時序圖
![image](${annotations.__plot_image__})

[[數據詳情](${query_url})]
[[作業詳情](${alert_url})]

[[確認](${annotations.__ensure_url__})]
[[誤報](${annotations.__mismatch_url__})]

我們一起來看下具體的告警消息的樣例，接下來我們所有的描述都會根據對應的如下結果進行描述。

{
  "results": [
    {
      "store_type": "log",
      "region": "cn-chengdu",
      "project": "sls-ml-demo",
      "store": "machine_metric_logtail",
      "start_time": 1641361140,
      "end_time": 1641361200
    }
  ],
  "labels": {
    "ip": "192.168.1.5",
    "name": "load_avg"
  },
  "annotations": {
    "__ensure_url__": "$url_path",
    "__mismatch_url__": "$url_path",
    "__plot_image__": "$url_path",
    "alert_msg_type": "ml_anomaly_msg",
    "anomaly_score": "0.8000",
    "anomaly_type_id": "1",
    "anomaly_type_name": "STAB_TYPE",
    "job_id": "29030-2bbf5beba0110fa869339708a8217b67",
    "model_id": "9c0f0d5ad4879eb75237e2ec8494f5f1",
    "title": "metric-logtail-sql"
  },
  "severity": 8,
  "drill_down_url": "$url_path"
}

典型場景配置

場景一

目標：過濾特定實體的異常

操作步驟

尋找到某個巡檢任務的【行動策略ID】，這裏要根據用戶自己的實際配置來確定，具體的路徑如下：

在行動策略中，添加對應的條件

根據上述提供的告警字段而言，我們假設目前只將【標籤】中字段爲【ip】且值爲【192.168.1.5】的告警消息發送到特定的【釘釘機器人】中

場景二

目標：過濾特定分數的異常

操作步驟

找到特定的【行動策略ID】，添加【條件】
配置【異常分數】超過【0.9】分數以上的告警到特定的渠道

【名稱】- anomaly_score
【正則】- ^((1\.0*)|(0\.9[0-9]*))$

場景三

目標：過濾特定實體的特定分數的異常

操作步驟

找到特定的【行動策略ID】，添加【條件】
配置【特定實體】的【異常分數】超過【0.9】分數以上的告警到特定的渠道

【標註】的名稱設置爲 anomaly_score，【正則】- ^((1\.0*)|(0\.9[0-9]*))$
【標籤】的名稱設置爲 ip，對應的實體內容是 192.168.1.5

場景四

目標：過濾特定異常類型的異常

操作步驟

找到特定的【行動策略ID】，添加【條件】
配置【特定異常形態】

配置【標註】anomaly_type_id，根據對應的值進行判別，具體的內容可以參考[異常類型說明](異常類型說明 - 日誌服務 - 阿里雲)
這裏只接受特定的【向上漂移類型的異常】anomaly_type_id = 7

場景五

目標：根據巡檢事件和根因事件類型進行分發

操作步驟

找到特定的【行動策略ID】，添加【條件】
配置【智能告警的事件類型】

配置【標註】alert_msg_type，對應的值是 ml_anomaly_msg （這個字段表示的是智能巡檢的告警）

原文鏈接

本文爲阿里雲原創內容，未經允許不得轉載。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

智能巡檢告警配置最佳實踐

巡檢事件基礎結構

典型場景配置

場景一

場景二

場景三

場景四

場景五

Serverless Devs 重大更新，基於 Serverless 架構的 CI/CD 框架：Serverless-cd

5個編寫技巧，有效提高單元測試實踐

使用EasyCV Mask2Former輕鬆實現圖像分割

通過定時SQL提取阿里雲API網關訪問日誌指標

「開源人說」| 雲原生時代，做不忘初心開源牧馬人

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結