企业信息化思考 - 系统运维

我将系统运维要处理的事情,分为事件和问题两类,两者定义和处理流程不同

一 、事件类运维

事件定义,首次出现或者偶然发生的系统问题,除了系统和数据本身的问题外,也包括用户操作问题。

处理流程:

    1)第一时间接收用户反馈;

    2)及时处理,第一时间确保用户业务正常运行,能当天处理的问题,就不让问题过夜。

    3)记录事件,包括:时间、用户、处理人、事件内容、处理过程、解决办法。

事件的处理关键在于快,以最快的速度让用户业务正常运行,确保用户的对IT的服务满意度。

二、问题类运维

问题定义,反复(一次以上)出现的事件,被视为问题。问题包括系统、数据本身的bug、用户操作、流程、需要IT人员重复手工操作解决的问题。

处理流程:

    1)第一时间接收用户反馈;

    2)及时处理,第一时间确保用户业务正常运行。

    3)收集问题产生的原因,并分析原因,找到问题根本所在;

    4)制定解决问题的方案并实施,直至问题彻底解决,不再发生;

    5)记录问题,包括时间、用户、处理人、问题内容、问题原因、分析、方案、实施过程。

问题的处理关键在于杜绝,寻根问底,彻底解决反复发生的问题。避免偷懒式的手工临时处理,建立自动化IT功能,一劳永逸的解决问题。

三、运维知识库

运维知识库主要作用是提高运维效率,以结构化的方式将运维记录,转变成IT知识沉淀、共享、复用。

比如用户操作类事件,用户如能轻松的在知识库找到解决办法,并实践,就不用为几分钟能解决的问题,而花上十几分钟等IT人员处理。企业规模越大,人员越多,知识库发挥的作用也会越大。

很多企业都建立了知识库工具,但能用好的不多,我认为关键在于知识积累的质量、知识库使用是否便捷、能否准确找到需要的知识、工具使用的普及(这点领导者很关键)

知识库的共享和经验复用,不论是对用户还是IT团队来说,都是能提高效率的工具。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章