細心的讀者可能會發現,上一篇《運維的價值和目標拆解》中有個腦圖,其中監控完備這部分是沒有展開的。那麼對於一個互聯網公司,要對哪些方面做了監控,才能稱得上完備?今天筆者拋磚引玉,給出一個列表,不足之處,歡迎業界同仁補充,共同進步:)
網絡監控
終端客戶要想訪問你的服務,勢必要經過一系列網絡鏈路,這是我們的第一個着眼點
網絡質量
全國各地,不同的地區,不同的運營商,訪問你的網站的質量,比如延遲是多少,是否不通了
公網出口
服務部署在某個IDC,IDC的公網出口是不是擁塞了,是不是斷了
專線帶寬
服務可能是依賴其他服務的,而被依賴的服務卻不在同一個機房,中間通過專線連通,那麼專線的質量就需要關注了,典型的比如丟包情況,是否連通,帶寬是否到達上限
網絡設備
各種交換機、路由器,是不是掛了,是不是丟包了,硬件是否故障了
機器監控
這個大家通常不會忽略,畢竟你的服務是在機器上跑的嘛,簡單嘮叨一下
機器硬件
比如磁盤是不是隻讀了,raid是不是故障了,內存是不是故障了
機器運行態
比如磁盤是不是滿了,CPU是不是持續跑滿,內存是不是快吃光了,IO持續100%,網卡是不是丟包了,系統進程總數是不是過多了,打開的文件句柄是不是過多了。
機器配置
比如ulimit配置是否合理,一些系統參數比如nf_conntrack_max配置是否合理。
系統進程
比如ntp是否工作正常,系統時間是否偏差太大,sshd進程是否工作正常,crond是否掛了
業務監控
服務本身運行的情況,自然也是要監控的
存活性
進程是否還在,端口是否還在監聽,LOG是否不再滾動
異常日誌
比如拋了Exception,出現了ERROR、FATAL、ALERT等關鍵字
健康指標
這個經常容易忽視,需要研發配合,能夠反映服務自身健康狀況的指標,跟業務自身相關。比如MQ,能夠反映MQ健康狀況的可能是消息堆積量。
接口監控
服務對外提供的API,其成功率、延遲情況、QPS等等。一些人做的域名監控也可以歸到這裏。
周邊依賴
比如你依賴的其他服務是否健康,比如用到的HTTPS證書是否過期