我將系統運維要處理的事情,分爲事件和問題兩類,兩者定義和處理流程不同
一 、事件類運維
事件定義,首次出現或者偶然發生的系統問題,除了系統和數據本身的問題外,也包括用戶操作問題。
處理流程:
1)第一時間接收用戶反饋;
2)及時處理,第一時間確保用戶業務正常運行,能當天處理的問題,就不讓問題過夜。
3)記錄事件,包括:時間、用戶、處理人、事件內容、處理過程、解決辦法。
事件的處理關鍵在於快,以最快的速度讓用戶業務正常運行,確保用戶的對IT的服務滿意度。
二、問題類運維
問題定義,反覆(一次以上)出現的事件,被視爲問題。問題包括系統、數據本身的bug、用戶操作、流程、需要IT人員重複手工操作解決的問題。
處理流程:
1)第一時間接收用戶反饋;
2)及時處理,第一時間確保用戶業務正常運行。
3)收集問題產生的原因,並分析原因,找到問題根本所在;
4)制定解決問題的方案並實施,直至問題徹底解決,不再發生;
5)記錄問題,包括時間、用戶、處理人、問題內容、問題原因、分析、方案、實施過程。
問題的處理關鍵在於杜絕,尋根問底,徹底解決反覆發生的問題。避免偷懶式的手工臨時處理,建立自動化IT功能,一勞永逸的解決問題。
三、運維知識庫
運維知識庫主要作用是提高運維效率,以結構化的方式將運維記錄,轉變成IT知識沉澱、共享、複用。
比如用戶操作類事件,用戶如能輕鬆的在知識庫找到解決辦法,並實踐,就不用爲幾分鐘能解決的問題,而花上十幾分鍾等IT人員處理。企業規模越大,人員越多,知識庫發揮的作用也會越大。
很多企業都建立了知識庫工具,但能用好的不多,我認爲關鍵在於知識積累的質量、知識庫使用是否便捷、能否準確找到需要的知識、工具使用的普及(這點領導者很關鍵)
知識庫的共享和經驗複用,不論是對用戶還是IT團隊來說,都是能提高效率的工具。