kafka監控指標項

kafka監控指標項多維度

Kafka監控:主要性能指標

kafka各種監控指標

1、關於配置文件的編寫,我的配置2會匹配所有的指標,不過由於不同的人需求不一樣,可以參考配置1的方式,通過VisualVM工具在MBeans中所暴露出來的對象,根據規律自行編寫。舉個例子比如像要獲取BytesInPersec對應__consumer__offsets這個指標在VisualVM工具中如圖
在這裏插入圖片描述

而此時,在Metadata欄的ObjectName欄則可以看到他的匹配方式,同類型的,使用正則替換即可,具體參考配置1就好。(image-3fa8ad-1548668115387)]

2、出現過的問題:
(1):生產環境鏈接超時問題。
原因:kafka默認設置的單次拉取超時時間爲15s,而由於生產環境主機壓力大,15s獲取還沒有返回,導致數據總是拉取不成功。
解決方案:根據我們自己的實際情況,很多java指標是可以不要的,所以在配置中註釋了除去kafka.*其他的所有指標,拉取時間維持在最多10s,基本滿足需求,以後有需要再行優化(比如只拉取需要的指標,其他一律忽略等等)。

(2):Prometheus遠程寫入influxDB報錯問題。
原因:influxDB不支持+/-Inf的字段類型,這點從日誌中可以看出來。
日誌:如下

prometheus     | level=warn ts=2019-01-22T07:00:37.113970782Z caller=queue_manager.go:531 component=remote queue="0:http://influxdb:8086/api/v1/prom/write?db=prometheus&u=prom&p=prom" msg="Error sending samples to remote storage" count=100 err="server returned HTTP status 400 Bad Request: {\"error\":\"+/-Inf is an unsupported value for field value\"}"

解決方案:在指標頁中找到返回值爲+/-Inf的指標名,從配置文件中將其忽略。(待進一步驗證,我設置了一個,告警減少了,但是依然存在,可能有多個指標,某些沒照出來吧)

scrape_configs:
   - job_name: 'my_job'
     static_configs:
       - targets:
       - my_target:1234
     metric_relabel_configs:
        - source_labels: [ __name__ ]
          regex: 'my_too_large_metric'
          action: drop

3、一些自己使用到的指標計算,每個人的需求不一樣,僅供參考(如果發現錯誤,請不吝批評指正)

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章