完備的監控應覆蓋什麼

細心的讀者可能會發現,上一篇《運維的價值和目標拆解》中有個腦圖,其中監控完備這部分是沒有展開的。那麼對於一個互聯網公司,要對哪些方面做了監控,才能稱得上完備?今天筆者拋磚引玉,給出一個列表,不足之處,歡迎業界同仁補充,共同進步:)

網絡監控

終端客戶要想訪問你的服務,勢必要經過一系列網絡鏈路,這是我們的第一個着眼點

網絡質量

全國各地,不同的地區,不同的運營商,訪問你的網站的質量,比如延遲是多少,是否不通了

公網出口

服務部署在某個IDC,IDC的公網出口是不是擁塞了,是不是斷了

專線帶寬

服務可能是依賴其他服務的,而被依賴的服務卻不在同一個機房,中間通過專線連通,那麼專線的質量就需要關注了,典型的比如丟包情況,是否連通,帶寬是否到達上限

網絡設備

各種交換機、路由器,是不是掛了,是不是丟包了,硬件是否故障了

機器監控

這個大家通常不會忽略,畢竟你的服務是在機器上跑的嘛,簡單嘮叨一下

機器硬件

比如磁盤是不是隻讀了,raid是不是故障了,內存是不是故障了

機器運行態

比如磁盤是不是滿了,CPU是不是持續跑滿,內存是不是快吃光了,IO持續100%,網卡是不是丟包了,系統進程總數是不是過多了,打開的文件句柄是不是過多了。

機器配置

比如ulimit配置是否合理,一些系統參數比如nf_conntrack_max配置是否合理。

系統進程

比如ntp是否工作正常,系統時間是否偏差太大,sshd進程是否工作正常,crond是否掛了

業務監控

服務本身運行的情況,自然也是要監控的

存活性

進程是否還在,端口是否還在監聽,LOG是否不再滾動

異常日誌

比如拋了Exception,出現了ERROR、FATAL、ALERT等關鍵字

健康指標

這個經常容易忽視,需要研發配合,能夠反映服務自身健康狀況的指標,跟業務自身相關。比如MQ,能夠反映MQ健康狀況的可能是消息堆積量。

接口監控

服務對外提供的API,其成功率、延遲情況、QPS等等。一些人做的域名監控也可以歸到這裏。

周邊依賴

比如你依賴的其他服務是否健康,比如用到的HTTPS證書是否過期

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章