kafka監控指標項

原創

紫蝶侠

2020-07-01 13:58

kafka監控指標項多維度

Kafka監控:主要性能指標

kafka各種監控指標

1、關於配置文件的編寫，我的配置2會匹配所有的指標，不過由於不同的人需求不一樣，可以參考配置1的方式，通過VisualVM工具在MBeans中所暴露出來的對象，根據規律自行編寫。舉個例子比如像要獲取BytesInPersec對應__consumer__offsets這個指標在VisualVM工具中如圖

而此時，在Metadata欄的ObjectName欄則可以看到他的匹配方式，同類型的，使用正則替換即可，具體參考配置1就好。

2、出現過的問題：
（1）：生產環境鏈接超時問題。
原因：kafka默認設置的單次拉取超時時間爲15s，而由於生產環境主機壓力大，15s獲取還沒有返回，導致數據總是拉取不成功。
解決方案：根據我們自己的實際情況，很多java指標是可以不要的，所以在配置中註釋了除去kafka.*其他的所有指標，拉取時間維持在最多10s，基本滿足需求，以後有需要再行優化（比如只拉取需要的指標，其他一律忽略等等）。

（2）：Prometheus遠程寫入influxDB報錯問題。
原因：influxDB不支持+/-Inf的字段類型，這點從日誌中可以看出來。
日誌：如下

prometheus     | level=warn ts=2019-01-22T07:00:37.113970782Z caller=queue_manager.go:531 component=remote queue="0:http://influxdb:8086/api/v1/prom/write?db=prometheus&u=prom&p=prom" msg="Error sending samples to remote storage" count=100 err="server returned HTTP status 400 Bad Request: {\"error\":\"+/-Inf is an unsupported value for field value\"}"

解決方案：在指標頁中找到返回值爲+/-Inf的指標名，從配置文件中將其忽略。（待進一步驗證，我設置了一個，告警減少了，但是依然存在，可能有多個指標，某些沒照出來吧）

scrape_configs:
   - job_name: 'my_job'
     static_configs:
       - targets:
       - my_target:1234
     metric_relabel_configs:
        - source_labels: [ __name__ ]
          regex: 'my_too_large_metric'
          action: drop

3、一些自己使用到的指標計算，每個人的需求不一樣，僅供參考（如果發現錯誤，請不吝批評指正）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

kafka監控指標項

Python實現大麥網搶票的四大關鍵技術點解析

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

kafka集羣性能調優實戰

創建commit-msg模板

2019每特教育&螞蟻課堂-Java互聯網微服務架構面試寶典v1

kafka 開源監控--kafka-manager安裝

Java的Map.Entry和Map中的map.keySet()、map.entrySet()

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結