思考：prometheus 告警爲什麼選用alertmanager？

原創

2021-02-18 21:31

爲什麼要用 alertManager

alertmanager 主要用於接收 Prometheus 發送的告警信息，它支持多種告警通知渠道，而且很容易做到告警信息進行去重，降噪，分組等，超級好用。

其實 Grafana 也自帶了告警功能，本來想直接用 Grafana 的告警功能，這樣就不用多部署一個組件了，試用了一下 Grafana 的告警，不是很好用，然後就放棄了。

看上圖，最難受的就是 Template variables are not supported in alert queries 這段話了，不能用於變量類型的模板。下面來解釋下這個問題：

指標查詢語句如下：

sum(rate(http_server_requests_seconds_count{application="$application", instance="$instance"}[1m]))

其實是根據 application 和 instance 來查詢的，也就是在查詢的時候可以選擇哪個應用，哪個實例進行數據的查看。

但是你如果要用 Grafana 的告警，就不能這麼寫，那要怎麼寫呢？把變量去掉。

假如我的 A 服務有 5 個實例，那麼你就得配置 5 個查詢語句，如下:

sum(rate(http_server_requests_seconds_count{application="a-service", instance="10.11.11.12"}[1m]))
sum(rate(http_server_requests_seconds_count{application="a-service", instance="10.11.11.13"}[1m]))
sum(rate(http_server_requests_seconds_count{application="a-service", instance="10.11.11.14"}[1m]))
sum(rate(http_server_requests_seconds_count{application="a-service", instance="10.11.11.15"}[1m]))
sum(rate(http_server_requests_seconds_count{application="a-service", instance="10.11.11.16"}[1m]))

到了這一步我就直接放棄了，太難用了，不知道有沒有其他的方式能夠解決這個問題，反正我是投向了 alertmanager。

部署 alertManager

部署 alertmanager 之前我們首先部署一個釘釘消息的轉發服務，也就是當有告警的時候，alertmanager 會調用這個轉發服務將告警內容發送至釘釘。

docker run -d -p 8060:8060 --name webhook timonwong/prometheus-webhook-dingtalk --ding.profile="webhook1=
https://oapi.dingtalk.com/robot/send?access_token=你的token"

釘釘機器人需要自定義關鍵詞來匹配告警信息，否則接收不到消息。

直接用 Docker 來部署 alertmanager，命令如下：

docker run -d --name alertmanager -p 9093:9093 -v /opt/alertmanager/alertmanager.yml:/etc/alertmanager/alertmanager.yml prom/alertmanager:latest

alertmanager.yml

global:
  resolve_timeout: 5m
route:
  receiver: webhook
  group_wait: 30s
  group_interval: 5m
  repeat_interval: 5m
  group_by: [alertname]
  routes:
  - receiver: webhook
    group_wait: 10s
receivers:
- name: webhook
  webhook_configs:
  - url: http://10.100.0.168:8060/dingtalk/webhook1/send
    send_resolved: true

webhook 的通知地址我們配置成上面我們部署的釘釘轉發服務的 IP+Port 就可以了。

修改 prometheus 的配置文件，增加 alertmanager 的配置。

prometheus.yml

# Alertmanager configuration
alerting:
  alertmanagers:
  - static_configs:
    - targets: ["10.100.0.168:9093"]
rule_files:
- "/etc/prometheus/rules.yml"

配置告警規則

rules.yml

groups:
- name: qps
  rules:
  - alert: QPS告警
    expr: (sum by(instance,application)(rate(http_server_requests_seconds_count[1m]))) > 100
    for: 1m
    labels:
      severity: warning
    annotations:
      description: "應用:{{ $labels.application }} 實例:{{ $labels.instance }} QPS超過100 (當前值: {{ $value }})"
      summary: ""
  - alert: 應用下線告警
    expr: up == 0
    for: 0m
    labels:
      severity: warning
    annotations:
      description: "應用:{{ $labels.job }} 實例:{{ $labels.instance }} 已下線"
      summary: ""

上面配置了 QPS 告警和應用下線的告警，關於告警規則不做詳細講解，大家可以自己去學習下，當然也有一些可以參考的規則配置，具體可以查看這個網站：https://awesome-prometheus-alerts.grep.to/rules

配置好了後可以在 prometheus 的 Web 控制檯 Alerts 中進行查看。

告警效果

遇到的問題

在告警內容顯示這塊遇到了一個問題，研究了挺長時間的。上面有貼釘釘告警後的消息接入，在描述信息中有寫哪個應用，哪個實例出問題了，就是這 2 個具體的信息，在我一開始配置告警規則的時候沒有獲取到值。

沒有獲取到值的原因是我的告警規則是這樣寫的：

sum (rate(http_server_requests_seconds_count[1m])) > 100

規則本身沒問題，也能執行，就是實例值獲取不到，後面研究了網上一些其他的規則，發現想要獲取具體的值，就得在規則裏面包含這些內容纔行。

然後就改用下面的方式了，在 sum 後接上要顯示的指標名稱，就可以在告警信息中顯示了。跟 Sql 中的 select 一樣，沒有寫清要哪個字段就不會查詢出來。

(sum by(instance,application)(rate(http_server_requests_seconds_count[1m]))) > 100

關於作者：尹吉歡，簡單的技術愛好者，《Spring Cloud 微服務-全棧技術與案例解析》, 《Spring Cloud 微服務入門實戰與進階》作者, 公衆號猿天地發起人。

- END -

後臺回覆 學習資料 領取學習視頻

如有收穫，點個在看，誠摯感謝

本文分享自微信公衆號 - 猿天地（cxytiandi）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

思考：prometheus 告警爲什麼選用alertmanager？

爲什麼要用 alertManager

部署 alertManager

配置告警規則

遇到的問題

MySQL查出時間比實際晚8小時的解決方案

什麼是IPD項目管理模式？聊聊IPD下的產品研發流程

aaaaaa1

Java編程工具：簡潔高效實現

Java word通過html設置樣式（Spire Docx）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結