記一次Zabbix延時問題

zabbix server隊列延時

問題:查看隊列數,發現隊列延時一致高於某個值,於是來查查是什麼問題導致。

記一次Zabbix延時問題

1. 查看隊列延時詳細信息

記一次Zabbix延時問題

記一次Zabbix延時問題

我們可以看到延時都對應某個監控項。此時已某主機查看監控數據,以10.70.242.201爲例。

2. 查看監控數據

記一次Zabbix延時問題

我們可以看到延時的數據自從早上八點就沒有更新了。

3. 查看特定item的圖形

記一次Zabbix延時問題

可以看出數據的不連續,而這種情況只出現在某些固定的item上。可也粗略推測是此數據的某些特徵導致延時,

4. 查看延時item的配置

我們發現延時嚴重的item多半主動檢測

5. 查看主機agent的配置文件

查看是否開啓了主動檢測ServerActive指令是否開啓?查看開啓了。

6. 查看日誌文件

agent日誌文件

1592:20170914:115210.600 active check data upload to [192.168.96.115:10051] started to fail ([connect] cannot connect to [[192.168.96.115]:10051]: (null))
1592:20170914:115351.720 active check configuration update from [192.168.96.115:10051] started to fail (cannot connect to [[192.168.96.115]:10051]: (null))

我們可以看到agent端上傳主動檢測的數據時,無法連接到主機。這個表明agent可以從server端獲取監控的items。

server端日誌

cannot send list of active checks to "192.168.242.201": host [WIN-HS2LFD8I4SL] not found

7. 問題原因

這是由於agent端和server端標記主機的方式不同,主動檢測時,agent的身份是配置文件中hostname的值,如果hostname沒有指明,則使用主機名代替,而我們server端標識主機使用的IP導致無法識別agent 主機。

8. 解決方法

  • 只需將server 添加主機值主機名稱和agent中配置指令hostname一致進行。
  • 將主動檢測改爲被動檢測。

9. 總結

解決問題時,一步步驗證猜測。往往日誌文件會給我們很大的提示。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章