互联网系统故障应急处理流程

1、发现问题。需要完善的监控系统、对网络,服务器cpu、负载、io、内存、连接数(文件句柄数)以及应用系统性能、异常日志进行全访问

2、定位问题。分析问题发生的根源,思考是否对网络、硬件、应用进行升级,或者超过系统的承载量导致问题的发生

3、解决问题。尽快处理问题,恢复系统的正常运行,降低因系统故障对平台造成的损失

4、消除影响。恢复应急过程中对系统临时性改变,尽快的采取补救的措施,降低对客户的影响

5、回顾问题。分析问题的发生原因,如何解决,怎么避免问题再次发生

6、采取措施。对问题发生的原因,避免方法采取行动、执行相应措施

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章