盤點全球數據中心災難史 看數據中心選址與災備

  

數據中心,支撐整個IT系統正常運轉的後臺架構,囊括了計算、存儲、網絡等多種IT資源。也正是因爲數據中心地位的重要性和在現代社會生活中扮演的重要角色,使得數據中心的安全和持久穩定運行成爲了人們極爲關注的問題。然而,前段時間颶風桑迪爲代表給數據中心帶來的災難性創傷,再次引發了人們對數據中心的安全擔憂。本文,將爲讀者介紹全球數據中心遭遇到的災難事故,並從中總結得出數據中心安全殺手以及如何防範等問題。

  本月早些時候,颶風桑迪重創美國東海岸,尤其是支持着整個工業園運轉的數據中心在此次颶風肆虐中因斷電而癱瘓,造成了難以挽回的巨大損失。

  那麼,數據中心常見的殺手有哪些呢?換句話說,究竟有哪些因素會影響數據中心的正常運行、而需要我們特別加以重視的呢?一般說來,以下因素或者災害對數據中心會帶來較大危害:

  一、洪災

  毋庸置疑,曾經泰國洪災給硬盤產業帶來的影響就可以“窺一葉而知春秋”,數據中心也同樣害怕洶涌的洪災;

  二、火災

  俗話說“大火無情”,一旦出現火災事故,後果不堪設想。也正是如此,數據中心往往都備有消防裝備;

  三、網絡中斷

  光纖網絡在很多偏遠地區並不常見,如果路由器、交換機出現宕機或者人爲誤操作(誤配置)導致網絡中斷,後果同樣不堪設想。沒有網絡的數據中心宛如一座孤島——對於提供 網絡或者雲服務的數據中心來尤其如此;

  四、電力中斷

  相比網絡中斷,電力中斷帶來的麻煩更大。沒有電力的數據中心就如同一堆廢鐵;

  五、地震

  去年日本大地震帶來的影響,大家可能都歷歷在目。身處地震帶或者地震頻發周邊的數據中心尤其要注意在防震方面的設計和構建。

  2011年日本大地震致數據中心受損

  另外,數據泄露、系統崩潰、網絡攻擊、人爲失誤和冗餘出錯,都會給數據中心的正常運營帶來巨大危害。下面,我們將爲大家介紹曾經遭遇過巨大創傷的數據中心。

  【事故檔案】

  時間:2008年3月19日

  地點:美國

  起因:火災

  損失:數據中心遭毀,歷時十天才得以修復。

  火燒威斯康辛數據中心

  2008年3月19日,美國威斯康辛數據中心被火燒得一塌糊塗。根據事後統計,這次大火已經燒掉了75臺服務器、路由器和交換機,當地大量的站點都癱瘓。該數據中心屬於當地一家“Camera Corner/Connecting Point”的公司所有,該公司主營網站託管和其他IT服務。

  這次事故,給當地網站帶來了巨大損失。耗時10天的修繕和重新部署,才使得這些網站得以上線。該公司CEO Rick Chernick也一再強調,公司爲該數據中心投放了火災險,而且數據中心的警報裝置減輕了火災帶來的進一步損害。

  然而,該數據中心耗時十天才得以完全恢復過來,足以說明該數據中心在當時並沒有完備的備份計劃。

  同樣還遭遇火災影響的數據中心,有來自莫斯科的ISP服務器機房。根據監控畫面我們知道,該數據中心起火原因是牆壁上的電閘開關短路而導致的。工作人員利用手中的各種工具將涌向服務器的煙霧和火花進行撲滅。然而值得稱讚的是,儘管如此,該機房並沒有中斷電力。因爲他們部署了UPS系統,這一點對於其他數據中心的設計和建築來說都極具參考意義。

  Fisher Plaza數據中心變壓器起火引發火災

  2009年7月,位於西雅圖的Fisher Plaza數據中心的變壓器起火引發火災。此次火災影響甚大,造成了包括微軟Bing Travel、Authorize.net、Redfin、Big Fish Games、Survey Analytics等網站服務器的中斷運行。這次事故在同一時間段引發了很多其他數據中心的宕機。

  從此次災難中,我們應該學會在選擇數據中心服務商的時候,應該瞭解事故發生後網站需要多長時間從宕機中恢復過來。如果答案在幾天甚至幾周,那麼可以考慮選擇其他更值得信賴的服務商。

  另外,我們也特別需要有完整災備計劃的事後措施,在數據中心場地和周邊,務必有科學合理的消防設備和設計方案,數據中心的各個角落應該有儘可能多的消防器材。(在不影響通行和通風散熱的情況下)

  【事故檔案】

  時間:2009年9月9日

  地點:土耳其

  起因:暴雨引發洪災

  損失:數據中心遭淹

  水淹Vodafone數據中心2009年9月9日,土耳其伊斯坦布爾遭遇暴雨並引發了洪水。瘋狂肆虐的洪水淹沒了該市Ikitelli區的大部分地段,也淹沒位於該區的Vodafone數據中心。

  城市裏的很多Vodafone(沃達豐)手機用戶都因該數據中心被淹而無法使用通信服務。上圖展示的是監控攝像頭拍下的畫面:數據中心的一名員工在收集自己的東西撤離數據中心。

  伊斯坦布爾Ikitelli地區所處位置

  伊斯坦布爾Ikitelli地勢較爲低窪,南北毗鄰愛琴海和黑海。因此,在遭遇暴雨的時候就特別容易引發洪水。此次洪水在當地造成了很大的影響,甚至街道上的很多車輛都被沖走。

  Datacom網絡中心遭暴雨衝擊

  同樣遭受洪災影響的,還有來自澳大利亞的Datacom網絡中心。這次洪災發生在澳洲的時間是在2010年,當時的大暴雨將Datacom主機代管中心的天花板沖毀,使得服務器、存儲和網絡設備都遭損壞。起初該公司否認出現問題,但隨着事故在網絡上得到曝光,人們逐漸知道了真相。

  Hunt Valley數據中心遭遇水管侵襲

  Hunt Valley數據中心也曾遭遇了“有驚無險”的侵襲。在2008年的時候,洗手間的一根管道爆裂並涌出大量的水。好在該中心的服務器機櫃設計較爲合理,離地間距爲4英寸(1英寸=0.0254米),而且管理人員在午休回來後及時發現並處理了該險情。

  從以上幾個實例中我們不難發現,爲了避免洪災對數據中心帶來的潛在危害,我們應該對數據中心的選址、海拔、機櫃離地間距甚至是整個數據中心建築物的設計,都需要有一個充分的科學論證,以防後患。

  【事故檔案】

  時間:未知

  地點:未知

  起因:光纖被淹

  損失:業務中斷

  這起事故源自國外一名IT管理人員發出的視頻而得出。在視頻中,由於下水管道爆裂,位於地下室的數據中心被水浸入。

  可能有人會問,僅僅是下水管道爆裂怎麼會引發網絡中斷呢?(不是洪水,數據中心也沒有被淹沒)。其實,主要原因是當時一家電信公司打算將光線網絡鋪設在下水管道上,並通過下水管道的走向來安排佈線。圖中所示的就是光纖網絡被爆裂管道的水所淹沒的場景。

  除了網絡中斷,也有電力中斷的例子。比如接下來要介紹的數據中心。如上圖所示,工作人員按慣例檢查UPS的電壓和電流情況。然而,當他進入數據中心的時候,其中一個UPS宕機並且火花四濺,煙火瞬間瀰漫整個機房。

  天花板上的管道漏水也是數據中心一大殺手

  另外,我們這裏還要介紹一種意外事件帶來的潛在威脅。當IT管理員週末步入數據中心查看的時候發現,機房頂端的天花板已經溼透並逐漸往下滲水。滲出來的水流入到地面並不斷積壓。管理員發現後立即將水桶放到滲水的位置,避免水位進一步提升。

  經過後來的檢查發現,這些水來自於空調管道,而這些管道被鋪設在天花板上方,而且沒有經過嚴密的密封處理。

  無論是空調管道還是下水道,其實都是設計方面存有缺陷。對於這種問題,在搭建數據中心的時候就需要嚴格按照設計要求來執行。同時,也需要進一步加大對UPS和數據中心物理設施的常規定期檢查。

  【事故檔案】

  時間:2011年3月11日

  地點:日本

  起因:9級地震

  損失:設備受損

  3月11日,日本遭受了9級大地震,上萬人失去了生命,數百萬人受到嚴重影響。在此次地震中,日本東京的IBM數據中心也受損嚴重。包括很多大型機和傳統服務器受損,服務器機櫃東倒西歪,金屬外框也出現了變形,甚至有些大型機的線纜都暴露在外。

  9級地震發生後的IBM數據中心

  不過,由於IBM數據中心線纜長度和鬆緊度的合理設計,而且,作爲自動觸發進行錯誤檢查的一項預防措施,IBM存儲單元也同樣保持正常運行。在此次地震中的IBM服務器還能正常運行。

  遭地震影響的IBM數據中心

  另外值得一提的是,2012年初的時候,加爾各答的一家銀行被大夥無情吞噬。煙霧擴散至樓上九層。消防員趕來的時候,該機房也被火燒掉面目全非,只留下了機櫃的空殼和天花板上的一些線纜。

  前面我們給大家介紹了遭受洪災、火災、網絡中斷、地震破壞的數據中心,從這些災難事件中,我們也深刻地體會到災害的無情和兇猛,也意識到在設計規劃、建造部署數據中心的時候,需要經過多番論證,建立多套應急措施和備份系統。

  根據全球保險公司Axa安盛的一份報告,80%的中小企業在遭受重大事故後的18個月內都面臨着關門破產或者難以爲繼的困境。與此同時,更大型公司在遭受重大事故時,則會蒙受鉅額的財產損失和名譽

  下面,我們將爲大家提煉出幾個構建數據中心值得關注的問題。這些對於保障IT系統7×24不間斷運行、爲業務發展提供源源不斷的支持所應該具備的要素:

  一、數據中心的選址

  正如我們前提提到的,很多發展洪災的數據中心,都是位於地勢低窪、臨近河道或者海邊的地理位置。而且很多地震頻發或者環地震帶也不宜構建數據中心。選址問題,重點可以考慮自然地理條件、配套設施、周邊環境、成本因素、政策環境、高科技人才資源環境、社會經濟人文環境。

  全球數據中心分佈位置一覽

  二、建立數據中心災備計劃

  即使發生諸如地震、水災、雷擊、火災、機器故障這些偶然事件,也必希具備很高的安全可靠性以保證業務不會停止。爲了提高數據中心的安全可靠性,有必要建立完善的數據中心災備計劃。

  災備計劃其實應該包括軟硬件層面。軟件層面包括人爲的風險評估、定期審查、軟件系統的相互依存和備份。硬件層面包括硬件冗餘、UPS、數據備份、異地災備等等。

  三、融合數據中心

  由於成本和備份關鍵系統和數據同步的複雜性,很多企業不惜代價創建一個備份數據中心。隨着業務的發展,數據中心的問題與日俱增,數據中心管理者所面臨的壓力和挑戰也越來越大,企業業務的不斷調整和改變讓數據中心總體架構面臨極大的壓力、有限的物理空間讓數據中心擴展性和靈活性有所限制。

  爲此,融合數據中心是唯一的出路,只有通過有效的整合才能夠讓傳統數據中心升級成爲一個智能化、自動化、高效化的數據中心。

  四、虛擬化技術

  很多明智的企業都轉向虛擬化,從而大大降低成本。在緊急情況下,這也是快速恢復IT活力的一種方式。利用虛擬化技術,可以將操作系統、應用軟件和數據打包裝入到基於操作系統之上的應用軟件中。封裝的應用程序可以很容易的傳輸到場外——作爲數據的一種傳輸方式,併爲遠程計算機用戶提供訪問。虛擬化技術可以大幅減少停機時間,將宕機時間從數天減少到數小時。

  當然,在數據中心的具體產品層面,比如在應對地震等自然災害的時候,可以將數據中心構建在減震器上面——用金屬和橡膠製成並安放在建築物內的隔離層,可以吸收地震發生時帶來的震動。某些數據中心擁有樓級和機架級的減震隔離層。此外,所有的服務器機架設施,冷卻設備和其他設施都牢牢地受到地板的保護。

    轉載請註明原文出處:http://www.ciodongcha.com/plus/view.php?aid=1205

 

 

  

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章