Zabbix agent on XXXX is unreachable for 5 minutes

最近zabbix server 出現大量告警,所有的主機agent.ping 都告警,一會又恢復了正常,這樣反覆一直持續,Zabbix agent on XXXX is unreachable for 5 minutes。其他監控項目取值都很正常,只有agent.ping取值斷斷續續。

手動在zabbix server 手動執行:
root@zabbix:~# time zabbix_get -s 10.10.20.201 -k "agent.ping"
1

real 0m0.002s
user 0m0.000s
sys 0m0.000s

沒有任何延時的問題。

所有的zabbix_agentd.conf 和 zabbix_server.conf 的timeout 早已經都設置爲30了,重啓agentd 和 server 進程都無效。

考慮可能是mysql 參數導致的問題,修改了mysql 參數問題還是一樣。

無意中發現,只開了一臺主機的監控,是不會發生:Zabbix agent on XXXX is unreachable for 5 minutes,就這樣,一臺主機一臺主機的加入監控,
直到加了其中一臺之後,就開始出現“zabbix agent on XXXX is unreachable for 5 minutes”。
這臺主機用於監控oracle ,最近才添加一個自發現規則,監控效率低的sql (執行超過20秒,取前20行),主機屬於cdb database ,用戶偏多,所以sql_id 更多,自發現sql_id 監控項目不停的增加,已經達到3000了,因爲自發現的規則設置的是“資源週期不足:30d”,導致已經無效的監控項要在30天后再刪除。

手動修改了“資源週期不足:2d”,在把多餘的監控項刪除,現在監控項保留在700-800 之間,告警“zabbix agent on XXXX is unreachable for 5 minutes” 消失了。

大概率是個bug,一臺主機的監控項超過一定數量就會出現這個問題。寫出來防止大家入坑。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章