IT人员如何化解突发性事故

   

  在IT运维的职业生涯中,如果做为一个系统运维工程师你要没遇到几次大的事故,你都不好意思说做过IT,很多IT运维者最怕的是出问题,可是出问题能镇定的化险为夷,不仅可以凸显你的业务水平,而且可以锻炼你的应变能力和提高你技术能力,有些突发事故的过程可以说是IT极其宝贵的经验。

     当然我们并不期望出现问题,我说的这些问题是指你不可控的一些意外的问题;比如说一台服务器的无热盘点raid5坏了一块硬盘因没有注意,后面又坏一块导致系统无法启动,这种问题属于你个人的失误,这是可控问题;但如果同时坏了两块,只说明点背,算是意外问题。比如空调失灵导致机房过热死机,也算意外问题,比如说机房忽然断电又无法短期恢复也算意外问题。

     针对这些意外问题,我们该怎么做才能做到防微杜渐或者亡羊补牢?

————————————准备篇——————————————

1、机房相关信息的准备:
电力:UPS启动关闭操作指南、市电的空开位置标识、

机柜:机柜布局图、内部网络连接图、外联网络连接图

空调:空调性能信息、空调的供电开关说明图

2、服务器类信息准备:

服务器的硬件配置表、IP地址表、管理员帐号信息表、关键应用服务检测表、虚拟机和物理服务器对于关系表、服务器启动顺序表

3、网络信息

防火墙策略说明、核心层和二层交换机连接端口表、各交换机登录管理地址及帐号信息。

4、联系人

包含 “设备厂商应急联系人、物业关键联系人、运营商业务经理、IT相关责任人、行政人员“的所有联系方式。

5、常见关键问题FAQ

以上的信息准备完毕,记得一定要周期性更新哟,否则无用。另外相关信息备份在企业外部例如手机里,便于随时随地可查询。

————————————监控篇——————————————

1、对所有关键设备进行硬件监控。监控软件尽量不使用系统的应用层去监控,使用物理接口监控,像HP 的ILO监控、IPMI监控、SNMP监控。

2、关键服务监控

3、关键网络设备监控

以上监控节点的报警收件人指向相关联系人(IT内部人员),为避免企业内部监控系统出现异常问题导致无法及时报警,建议将监控在托管服务器上做冗余监控。

—————————————流程篇—————————————

任何事故都有其紧急程度,根据应用的重要性划分等级。

相关流程如下,灵活应用。

根据监控状态判断故障节点---先确定事故等级性及影响范围----确定事故解决的时间---邮件或电话通知相关受影响人--告知IT内部人员应急响应方案---根据准备篇收集的信息联系相关人或自行解决问题----解决完毕告知相关受影响人----对事故前因后果进行总结性汇报给领导

    总之,IT人要不打没准备的仗,问题来了不要怕,冷静看待,见招拆招;当然如果您所有的关键应用的都有冗余备份可以顺利切换,我想你可以高枕无忧,毕竟能做到自动化恢复那将是极好的。


微信号:ithelpyou ,请关注我,我将给您提供不一样的IT帮助。


wKiom1eWMYTj0Kc7AACaabycW1c460.jpg-wh_50


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章