網站故障-排查步驟

作爲一家中型網站的運維工程師,真實遇到網站故障了,尋求理想排查步驟,自己心得,附加網友觀點

網站掛了:

1、ping我的網站主站IP,可能是禁ping,不通,可能是機房網絡問題,那麼就去ping機房的網關!

2、機房網絡如果沒問題的話,那我會去看訪問是什麼情況,服務器異常或者是nginx報錯的話,

   那我會排查一下硬件,我的網站是用簡單的nginx負載+對外防火牆的,那我就看看access。log,

   統計一下這階段可疑IP以及行爲,如果有***,先拉黑可疑黑名單

3、排查從公網到我們主站IP的路由,tracert,可不可能跨域問題,聯通網絡訪問掛了?還是電信?看   看DNS是不是被劫持了

4、這時候我再看下服務器,我的網站程序是tomcat運行的,看看tomcat進程是否僵死,看日誌情況,一   般來說,只要負載,沒得問題,一般不會http請求堆積在一個server上,那可能負載權重問題

   ,或者說我的tomcat(或者其他web容器,內存設定問題)

   其實這些情況,可以通過zabbix監控來完成(一般如果訪問量暴增,或者是前端時間有變更操作,很    可能存在cpu吃緊情況,一般程序出現內存溢出,在系統資源允許情況下,加大jvm大小,初始棧,連    接數,還是重點關照開發,關於內存的回收)

5、可以試試單點登錄一臺節點看看,遇到內部程序調用的。內部curl看看,

   或者使用httprequest看看post和get訪問的放回那個狀態碼200是OK

   大神解說:方案最佳:

【高級】 帝都——大師兄 2016/8/2 21:54:06

我會先看看監控,因爲監控上基本上你這些檢測,我都做了。

通過監控數據,先縮小排查範圍。針對性去找故障點,排查。你這一套下來,估計業務中斷也有一段時間了。


【高級】 帝都——大師兄 2016/8/2 21:55:54

快速響應,先把影響降低到最小。這是你應該做的。

【高級】 帝都——大師兄 2016/8/2 21:56:09

問題可以先放後,先把業務恢復上來。

【高級】 帝都——大師兄 2016/8/2 21:56:23

業務是關鍵,問題可以慢慢查。

【高級】 帝都——大師兄 2016/8/2 21:56:41

因爲有日誌,和監控數據所以可以慢慢分析具體哪裏導致的業務中斷。

【高級】 帝都——大師兄

整個工作在你接手時,就應該預先考慮到,網站掛掉後,如何可以立刻恢復上來,大公司更是用戶無感知的恢復。小公司因爲各種限制,可能會稍微有點影響。

【高級】 帝都——大師兄 2016/8/2 21:59:55

等到網站掛掉,你在去各種查問題,你已經晚了。

【高級】 帝都——大師兄 2016/8/2 22:00:56

個人觀點,僅供參考。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章