今年數據中心宕機的教訓:關注基本面

儘管在2018年，我們仍然看到的大多數數據中心中斷。

根據Uptime Institute今年夏天公佈的調查結果，近三分之一的數據中心在過去一年中發生了中斷，而前一年則爲25％。但這一增長並不是由於一些致命的新惡意軟件造成的。

相反，導致停機的三大原因是斷電（33％），網絡故障（30％）以及IT或軟件錯誤（28％）。

最重要的是，80％的數據中心經理表示他們最近的停機是可以預防的。

您無法阻止雷擊（例如9月份在聖安東尼奧市Microsoft Azure數據中心的雷擊）或零日漏洞***。***。但是，通過適當的規劃和數據中心設計，由於意外的天氣事件，***，常規人爲錯誤或未打補丁的系統導致的中斷，是可以最大限度地減少的。

在中斷髮生後，使數據中心快速啓動並運行同樣重要。根據諮詢公司ITIC今年的報告，一小時的數據中心運營商平均停機時間爲260,000美元，而五分鐘的停機時間僅爲2,600美元。

基礎設施冗餘仍然有效

在最基本的層面上，數據中心繫統需要備份。備份電源和冷卻系統，備份數據，甚至備份整個數據中心。

備份工作。據Uptime稱，擁有2N冷卻和電源架構的數據中心。換句話說，一個完全冗餘的鏡像系統，去年有22％的用戶經歷了停電。與那些選擇更便宜，不完全冗餘的N + 1方法的人相比，減少了三分之一的中斷，其中他們的33％報告了停電。

完整數據中心的備份可提供更高的可靠性。根據Uptime的數據，40％的數據中心經理表示他們會在兩個或多個站點上覆制工作負載和數據。

“如果你有一個數據中心並且有雷擊，那麼你就會失敗，”SSH Communications Security首席技術官Markku Rossi表示。“你應該有一個輔助數據中心，它們之間存在物理隔離，因此它們不依賴於相同的能源。”

他補充說，沒有任何數據中心能夠免受這個問題的影響，他指的是微軟中美洲數據中心的9月份數據中心。

“進行第二次設置並能夠立即進行失效備援，”他說。

無論什麼備份系統到位，規劃和測試都是關鍵，Rossi補充說，規劃需要考慮當今數據中心的複雜性，其中問題可能引發其他問題。

他使用了最近在物理維護期間發生的GitHub中斷作爲例子。“他們在幾分鐘內修復了物理問題，但需要24小時才能使數據正確同步，”他說。

數據中心經理需要查明潛在的問題區域，然後在發生事情時準備好工具和流程。

Rossi說：“專注於建立流程，建立你爲失敗做準備所需的心態。”

加強數據中心

數據中心管理人員應該從最近發生的與惡意軟件相關的中斷中吸取的最大教訓之一就是，擁有一個強化的perimeter已經不夠了，***者會通過的。

顯然，保持防禦最新，以防惡意軟件進入是至關重要的。但數據中心管理人員必須準備好二級保護。

其中包括惡意流量檢測機制，網絡防禦（如分段）和最低權限的訪問和通信方法。

幾乎所有的數據中心停機都是由於糟糕的規劃和投資決策，加上流程不良或無法遵循流程，Uptime Institute研究執行主任Andy Lawrence在6月份的報告中寫道。“幾乎所有由正常運行時間研究所報告或研究的故障以前都發生過，而且通常有很好的文檔記錄。”

閃電襲擊和新型惡意軟件可能佔據所有頭條新聞，但最基本的還是要關注其恢復能力方面。