1、發現問題。需要完善的監控系統、對網絡,服務器cpu、負載、io、內存、連接數(文件句柄數)以及應用系統性能、異常日誌進行全訪問
2、定位問題。分析問題發生的根源,思考是否對網絡、硬件、應用進行升級,或者超過系統的承載量導致問題的發生
3、解決問題。儘快處理問題,恢復系統的正常運行,降低因系統故障對平臺造成的損失
4、消除影響。恢復應急過程中對系統臨時性改變,儘快的採取補救的措施,降低對客戶的影響
5、回顧問題。分析問題的發生原因,如何解決,怎麼避免問題再次發生
6、採取措施。對問題發生的原因,避免方法採取行動、執行相應措施