1、发现问题。需要完善的监控系统、对网络,服务器cpu、负载、io、内存、连接数(文件句柄数)以及应用系统性能、异常日志进行全访问
2、定位问题。分析问题发生的根源,思考是否对网络、硬件、应用进行升级,或者超过系统的承载量导致问题的发生
3、解决问题。尽快处理问题,恢复系统的正常运行,降低因系统故障对平台造成的损失
4、消除影响。恢复应急过程中对系统临时性改变,尽快的采取补救的措施,降低对客户的影响
5、回顾问题。分析问题的发生原因,如何解决,怎么避免问题再次发生
6、采取措施。对问题发生的原因,避免方法采取行动、执行相应措施