企業機房升溫-誰之過?

簡要敘述:企業的通訊機房,因多種制約因素(資金、企業認知、規劃者意識、運維的技術或規範等)致使機房的合理性、可靠性、擴展性等出現良莠不齊,危機四伏等局面。

事件起因:單位辦公樓因線路短路偶然非正常停電1個小時,致使機房非精密型空調停止運作,其餘設備均接入UPS電源。

事件經過

1、早晨7點左右停電,我8點左右進入辦公樓得知停電原因、停電時間點、恢復時間點,斷電持續1小時;

2、立即進入機房,溫度計顯示溫度44度,抓狂;其中4臺服務器因溫度報警,崩潰邊緣;

3、非精密型空調停止工作。

事件處理

1、處理思路和順序:降溫,恢復受影響設備,全面覈查設備和業務連續性,分析事故起因,規劃應對措施。

2、首先,開啓空調和門窗,快速降溫;

3、受溫度影響設備恢復正常狀態;

4、覈查設備運行日誌,無硬件型報錯;

5、覈實業務連續性,其中數據,業務系統運行日誌,均正常;

6、分析原因-企業雙迴路電源接入,穩定;空調功率大,直接接入公司市電線路;無聯動報警設備;事件告知渠道不流暢。

7、應對措施

   7.1、企業雙迴路電源接入,穩定-改動可能性非常小,直接放棄;

   7.2、空調功率大,直接接入公司市電線路-資金受限,維持原狀;

   7.3、無聯動報警設備-因資金預算和技術原因無法實現,無奈放棄;

   7.4、事件告知渠道不流暢-非正式郵件或書面要求相關部門遇到此類事件需第一時間告知;

   7.5、協商建立公司保衛人員非工作時間內巡檢記錄和報告體系。

回顧思考

從這件事,讓我思考了許多,別扔雞蛋說爲啥機房沒值班人員?爲啥沒有報警聯動裝置?爲啥沒人告訴?爲啥應對規劃如此糟糕?等等問題。

企業機房有正式值班人員的多嗎?-據我所瞭解,不多,爲啥原因很多-最直接的就是未達到企業的戰略高度。

爲啥沒聯動報警裝置和自動恢復等?-資金,企業的認知程度決定了,不是靠努力就能解決,好的時候沒人想起你,出問題的時候你沒做好。

爲啥沒人告訴?-企業的組織架構、理念和員工意識會對此結果產生很大影響。當然,第一責任人是我,我的風險識別未做好,更談不上應對措施了,同時跨部門的協作工作未通暢,致使事件發生無人第一時間告知(其實以前每次都告訴了,就這次沒告訴)。

爲啥應對規劃如此糟糕?-坦然承認,機房運維的風險識別、應對措施和溝通管理計劃做的很不好,未全面校驗其可靠程度。


想說幾句:

初建機房或運維時,一是建立運維體制,以便審查日誌發現問題;二是運維人員要定期識別風險,並評估其發生的概率和影響,並規劃相應的應對措施,同時將不可控或一旦發生影響很大的風險書面或郵件告知相關領導且最好使他知道風險的結果(說直白點,就是責任轉移),要不然知情不報,責任自己全抗,崩潰掉吧!

IT部門要善於思考和溝通,努力讓業務與組織戰略聯繫在一起,獲得更多資源改善環境和獲得更好技術支撐。


正確解決問題的思路會使效率事半功倍的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章