企業信息化思考 - 系統運維

我將系統運維要處理的事情,分爲事件和問題兩類,兩者定義和處理流程不同

一 、事件類運維

事件定義,首次出現或者偶然發生的系統問題,除了系統和數據本身的問題外,也包括用戶操作問題。

處理流程:

    1)第一時間接收用戶反饋;

    2)及時處理,第一時間確保用戶業務正常運行,能當天處理的問題,就不讓問題過夜。

    3)記錄事件,包括:時間、用戶、處理人、事件內容、處理過程、解決辦法。

事件的處理關鍵在於快,以最快的速度讓用戶業務正常運行,確保用戶的對IT的服務滿意度。

二、問題類運維

問題定義,反覆(一次以上)出現的事件,被視爲問題。問題包括系統、數據本身的bug、用戶操作、流程、需要IT人員重複手工操作解決的問題。

處理流程:

    1)第一時間接收用戶反饋;

    2)及時處理,第一時間確保用戶業務正常運行。

    3)收集問題產生的原因,並分析原因,找到問題根本所在;

    4)制定解決問題的方案並實施,直至問題徹底解決,不再發生;

    5)記錄問題,包括時間、用戶、處理人、問題內容、問題原因、分析、方案、實施過程。

問題的處理關鍵在於杜絕,尋根問底,徹底解決反覆發生的問題。避免偷懶式的手工臨時處理,建立自動化IT功能,一勞永逸的解決問題。

三、運維知識庫

運維知識庫主要作用是提高運維效率,以結構化的方式將運維記錄,轉變成IT知識沉澱、共享、複用。

比如用戶操作類事件,用戶如能輕鬆的在知識庫找到解決辦法,並實踐,就不用爲幾分鐘能解決的問題,而花上十幾分鍾等IT人員處理。企業規模越大,人員越多,知識庫發揮的作用也會越大。

很多企業都建立了知識庫工具,但能用好的不多,我認爲關鍵在於知識積累的質量、知識庫使用是否便捷、能否準確找到需要的知識、工具使用的普及(這點領導者很關鍵)

知識庫的共享和經驗複用,不論是對用戶還是IT團隊來說,都是能提高效率的工具。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章