IT人員如何化解突發性事故

   

  在IT運維的職業生涯中,如果做爲一個系統運維工程師你要沒遇到幾次大的事故,你都不好意思說做過IT,很多IT運維者最怕的是出問題,可是出問題能鎮定的化險爲夷,不僅可以凸顯你的業務水平,而且可以鍛鍊你的應變能力和提高你技術能力,有些突發事故的過程可以說是IT極其寶貴的經驗。

     當然我們並不期望出現問題,我說的這些問題是指你不可控的一些意外的問題;比如說一臺服務器的無熱盤點raid5壞了一塊硬盤因沒有注意,後面又壞一塊導致系統無法啓動,這種問題屬於你個人的失誤,這是可控問題;但如果同時壞了兩塊,只說明點背,算是意外問題。比如空調失靈導致機房過熱死機,也算意外問題,比如說機房忽然斷電又無法短期恢復也算意外問題。

     針對這些意外問題,我們該怎麼做才能做到防微杜漸或者亡羊補牢?

————————————準備篇——————————————

1、機房相關信息的準備:
電力:UPS啓動關閉操作指南、市電的空開位置標識、

機櫃:機櫃佈局圖、內部網絡連接圖、外聯網絡連接圖

空調:空調性能信息、空調的供電開關說明圖

2、服務器類信息準備:

服務器的硬件配置表、IP地址表、管理員帳號信息表、關鍵應用服務檢測表、虛擬機和物理服務器對於關係表、服務器啓動順序表

3、網絡信息

防火牆策略說明、核心層和二層交換機連接端口表、各交換機登錄管理地址及帳號信息。

4、聯繫人

包含 “設備廠商應急聯繫人、物業關鍵聯繫人、運營商業務經理、IT相關責任人、行政人員“的所有聯繫方式。

5、常見關鍵問題FAQ

以上的信息準備完畢,記得一定要週期性更新喲,否則無用。另外相關信息備份在企業外部例如手機裏,便於隨時隨地可查詢。

————————————監控篇——————————————

1、對所有關鍵設備進行硬件監控。監控軟件儘量不使用系統的應用層去監控,使用物理接口監控,像HP 的ILO監控、IPMI監控、SNMP監控。

2、關鍵服務監控

3、關鍵網絡設備監控

以上監控節點的報警收件人指向相關聯繫人(IT內部人員),爲避免企業內部監控系統出現異常問題導致無法及時報警,建議將監控在託管服務器上做冗餘監控。

—————————————流程篇—————————————

任何事故都有其緊急程度,根據應用的重要性劃分等級。

相關流程如下,靈活應用。

根據監控狀態判斷故障節點---先確定事故等級性及影響範圍----確定事故解決的時間---郵件或電話通知相關受影響人--告知IT內部人員應急響應方案---根據準備篇收集的信息聯繫相關人或自行解決問題----解決完畢告知相關受影響人----對事故前因後果進行總結性彙報給領導

    總之,IT人要不打沒準備的仗,問題來了不要怕,冷靜看待,見招拆招;當然如果您所有的關鍵應用的都有冗餘備份可以順利切換,我想你可以高枕無憂,畢竟能做到自動化恢復那將是極好的。


微信號:ithelpyou ,請關注我,我將給您提供不一樣的IT幫助。


wKiom1eWMYTj0Kc7AACaabycW1c460.jpg-wh_50


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章