容災的迷思

全球經濟一體化的今天,信息系統越來越成爲社會生產能力的樞紐和重要支柱,人們忽然發現,今天,信息系統的安全竟然能夠成爲決定我們生死存亡的核心棋子,我們再也不能在常規意義上來看待這具有舉足輕重地位的“大腦”。

我們四路環望,信息經濟包圍了我們,也產生了巨大的噴薄欲出的新的發展動力。政府開始朝向服務型方向演變,電子政務系統越來越成爲政府和百姓的連接橋樑,其作用比肩“血管”。電信領域日新月異的新一代網絡技術的飛躍,無一不構建在信息系統的巨手支撐之中。能源系統的發展,已經完全依賴於信息管理系統所構建的“主動脈”。多年以來,人們在認識到信息化社會的典型特徵的同時,逐漸在多種程度上開始對於信息技術的安全問題加大投入,施以重墨。數據備份技術的發展,從無到有,從小到大,成爲各企業信息系統的一門必修課。 

但是,“21世紀的珍珠港事件”的爆發,曾給世界經濟帶來了極大的負面影響,也使得越來越多的人們對於各業務運行的災難抗禦能力提出了反思,人們發現,天堂與地獄僅一牆之隔。可以說,“容災”的概念在今天突然變得萬分醒目。 

當企業因爲信息化帶來快捷的服務決策和方便管理時,也必須面對着數據丟失的危險,數據大集中也會聚集風險,這是人們意識到的一點。數據的丟失會中斷企業正常的業務運行,造成巨大的經濟損失。人們開始思忖災難恢復體系建立的意義,開始將注意力慢慢轉向了一個新興的領域—容災系統。實際上國際上是將信息系統的容災體系納入到一個更大的範疇之內---業務連續性管理。業務連續性管理是一個危機應急的框架,涵蓋: 

——風險管理 

——供應鏈管理 

——it容災和恢復 

——環境設施管理 

——安全管理 

我們常說的容災系統就屬於it容災和恢復的技術範疇。容災,首先要清楚容什麼樣的災,其次要清楚災難後如何恢復,採用何種技術和管理手段確保信息系統能夠在系統之後的快速再建、數據如何利用後援手段確保最小程度的丟失。根據國務院信息辦今年頒佈的《重要信息系統災難恢復指南》中所述定義,災難指由於人爲或自然的原因,造成信息系統運行嚴重故障或癱瘓,使信息系統支持的業務功能停頓或服務水平不可接受、達到特定的時間的突發性事件,這類事件通常導致信息系統需要切換到備用場地運行。災難恢復指爲了將信息系統從災難造成的故障或癱瘓狀態恢復到可正常運行狀態、並將其支持的業務功能從災難造成的不正常狀態恢復到可接受狀態,而設計的活動和流程。



在人們接觸到各種各樣、形形***的或真或假的容災理念之後,許多人卻被這個龐大而虛渺的天幕所困惑住了,正所謂,亂花漸入迷人眼。人們發現,一個美好的災難系統建設的願望,在實踐中往往是那麼的過程繁雜,想象中的快速構建的技術輪廓卻經常不是那麼盡如人意,往往制約了容災系統建設的最終實效。根據我們瞭解,衆多企業和行業對於如何建立最爲有效於自身的容災系統很少有相當清醒的認識,往往踏入了一些越陷越深的誤區。 

誤區一: 

使用遠程備份系統替代容災系統,使得容災的實際效果遠遠低於規劃,甚至於根本無法實現最初的災難抗禦的設想。

誤區二: 

採用單一技術手段,實現多系統的混合容災服務,結果是進退兩難,因爲這些單一的技術手段實際上具有很高的技術限定條件,一般只是單一系統的特定容災技術手段之一,而無法適應混合型容災服務的整體範圍。最終,這種所謂的容災中心,實際上變成了單一系統的特定數據備份中心,根本不具有擴展到多系統災難恢復服務的能力,所謂的投入產出比可想而知,只能陷入重複建設、重複投資的怪圈,形成了一個爲了容災而容災的錯誤定勢。這種情況,的確時有發生,尤其在一些政府或行業指令性的災難服務體系的建設中,屢見不鮮。 

誤區三: 

在容災中心的建設上,盲目追求設備高性能高指標,而忽略了容災中心災難響應所特有的“小概率”特徵,造成設備的大量閒置和浪費,設備投資的不合理。 

我們聽到的最多的問題是:我究竟適合什麼樣的災難恢復等級?這麼多的技術手段究竟哪一個才適合我?現在容災技術發展的成熟水準是什麼? 

讓我們來逐漸把思路清晰,勾勒出災備系統建設的技術路線圖。 

首先我們要清楚傳統的備份體系實際上僅僅處於國際上公認的災難恢復等級的最爲底層的區域,數據備份,是指爲防止系統出現操作失誤或系統故障導致數據丟失,而將數據集合從應用系統中以備份格式到處到離線的存儲介質的過程。在一般定義的災備恢復等級中,第一級也稱爲基本支持,主要就指介質的庫外存放和管理,也就是備份系統來實現,實際上,這還不是真正意義上的災難恢復系統,因爲其數據的保存間隔實際上是比較長的,常見的是每天一次,也就是對於數據的實時性或近實時性並不提供保證,而且,備份出來的格式是專用的備份格式,並非應用系統中的數據原有格局,恢復時一定要通過格式轉換進行倒回操作,因此也並不保證恢復的快捷和精細化的時間點恢復。傳統的數據備份主要是採用數據內置或外置的磁帶機進行冷備份。早在1990年,存儲軟件供應商就開始採用這種方式爲用戶提供數據解決方案,比如ca arcserve、veritas nbu、legato等。要想對數據進行可靠的備份,必須選擇專門的備份軟、硬件,並制定相應的備份及恢復方案。備份系統主要是人們在日常工作中對付常見系統錯誤的一種常規手法,因爲在我們日常行爲中,人爲操作錯誤、系統軟件或應用軟件缺陷、硬件損毀、電腦病毒、******、突然斷電、意外宕機、自然災害等諸多因素都有可能造成計算機中數據的丟失,從而極有可能演變成一場滅頂之災。因此,數據備份與恢復實際上是企業的必修課程。 

在容災體系中,人們往往採用rpo(災難是的數據保存點)和rto(災難後的業務恢復點)這兩個指標來衡量容災體系的應急能力和系統保護能力。一般而言,確保rpo指標的基本要求(也就是僅僅考慮數據要保存到接近故障點)往往被稱爲數據級災難備份系統,而對於rpo和rto(也就是業務災難恢復能力)的雙重要求,往往被稱爲應用級災備系統,也就是災難時要考慮業務的處理系統的快速恢復能力。數據級災備系統地代價相對比較低,而應用級災備則不同,根據系統的複雜程度,有可能十分高昂。所以,一些企業採用建立數據級災備和應用級災備分步走的方式來實現持續性發展的目標。在一般定義的災備等級中,第3級以上的級別針對rpo、rto這兩個指標開始有了實際的意義,也就是我們說的構建災難備份系統。有些企業認爲,建立遠程備份系統就是建立了數據級災備,也就是達到了災備的第一階段要求,這實際上是很大的誤解。先不說備份出來的數據格式已不是複製出來的格式,恢復時必須反向轉換,備份的很長的週期性間隔也無法達到一般的利用災備中心建立應急反應體系的要求(rpo超過了24小時對於多數企業而言已經沒有太大意義),而且,備份時大量的遠程傳輸帶寬的佔用(或本地備份汽車遠程運輸的資源消耗),使得傳輸根本無法滿足企業數據和業務增長的要求,傳輸成本奇高。因而,我們並沒有看到多少企業真正採用這種方式建立災難備份中心,並能夠有效地利用和管理。 

我們逐漸看到,至少是數據複製體系或遠程的電子傳輸以上的災備技術手段,纔是建立災難備份中心的建設方案的技術手段可行性範疇。 

下面我們談談真正的災備體系的可用技術手段,也就是容災方案討論的核心問題。 

災備系統的容災技術是一個災備系統建立的最爲重要的考慮因素之一,這一因素的考慮是否完善,甚至於決定了災備系統的成敗。因此,我們可以看到許多企業在下達了災備系統建設任務之後,卻遲遲無法在技術方案的論證環節上達到統一,換句話說,找到一個完美的技術路線是這麼的艱難。這裏我們進行一下分析: 

在構建容災備份系統時,我們首先考慮的應該是遠程數據保護的機制,一般而言就是結合實際情況選擇合理的數據複製技術。而選擇合理的數據複製技術時主要考慮以下因素: 

(1)災難承受程度:明確計算機系統需要承受的災難類型,系統故障、通信故障、長時間斷電、火災及地震等各種意外情況所採取的備份、保護方案不盡相同。現在人們經常將災難分爲自然災難和漸進性災難(如人爲的失誤型故障、******、斷點等),實現的技術保護手段也開始有所區別。 

(2)業務影響程度:必須明確當計算機系統發生意外無法工作時,導致業務停頓所造成的損失程度,也就是定義用戶對於計算機系統發生故障的最大容忍時間。這是設計容災備份方案的重要技術指標。 

(3)數據保護程度:是否要求數據庫可以恢復所有提交的交易並且要求實時同步數據也就是數據的連續性和一致性,決定了容災備份方案規模和複雜程度的重要依據。 

(4)最爲容易忽略的一點,容災的技術手段是否適合於現有的所有參與系統,對於生產系統的影響是否足夠的小。這一點,成爲目前容災體系技術路線的討論中最爲困擾各方的一個因素。混合系統容災、開放設備的選擇常常使得用戶的理想與技術現實產生鴻溝。 

容災的多種技術方式通過各類報刊和廠商的宣傳,已經被很多人所認知,各種技術近些年也在不斷融合,一些融合型技術也在不斷涌現。我們今天不做重點論述,只再簡單歸納一下常見的技術路線: 

1) 基於應用的容災備份技術 

基於應用的容災備份技術是由應用軟件來實現數據的複製和同步,當主中心失效時,容災備份中心的應用軟件系統恢復運行,接管主中心的業務。 

這種方式下,應用軟件實現一定程度的修改,複雜性加深。並且由應用軟件來實現數據的複製和同步會對整個業務系統的性能造成較大的影響。 

這種方式往往是應用開發的更廣泛範疇,需要在應用開發初期進入開發的概要設計和需求目標。 

2) 基於數據庫的容災備份技術 

目前在一些主流數據庫系統的生產系統中廣泛採用。這是利用數據庫複製系統或一些專用的庫複製系統,基於數據庫日誌複製實現主、備用系統的數據庫的數據同步,即是將主用系統數據庫操作log複製到備用系統數據庫中執行,實現二者數據的一致性。基於數據庫的複製方式可分爲實時複製、定時複製和存儲轉發複製,並且在複製過程中,還有自動衝突檢測和解決的手段,以保證數據一致性不受破壞。 

這種方式對於主機系統和存儲設備都相當開放,也就是說,備份中心的建設是一個開放設備的系統。主要的要求在於數據庫的一致性,數據的傳輸和複製一般採用tcp/ip的網絡協議。 

3) 基於主機的容災備份技術 

這種方式主要是採用主機上的卷複製技術,通過ip網絡實現遠程的卷複製。 

採用這種方式時,主中心和備份中心的距離不受限制,對磁盤陣列等設備要求不太高,由於是卷複製,對於數據庫具有通用的支持性。但這種方式會對主中心的主機系統帶來一定的負擔,而且對於備份中心的主機系統具有一致性要求。在一些混合系統中,容災中心提供災備服務有一定製約。 

4) 基於智能存貯系統的容災備份技術 

也就是常說的磁盤拷貝技術。常用於光纖直連的連接方式,同城容災較多。磁盤陣列將磁盤遠程複製功能的處理負荷從主機轉移到智能磁盤控制器上。這種方式下數據複製軟件運行在存貯系統內,比較容易實現主中心和容災備份中心的操作系統、數據庫、系統庫和目錄的實時拷貝維護能力。遠程備份系統的啓動、運行恢復相對比較簡單快捷。 

這種方式在早期的單存儲系統容災和點到點容災系統中比較常見,而且,由於對於主機系統的約束較小,相對構建的改動也比較小,因而,一些系統建立災難備份系統的方案選擇,比較青睞這種模式。 

如果採用光纖連接,這種方式只能用於同城方式,如果災備中心的建立在異地,則需要協議的轉換設備才能實現基於ip的遠程傳輸,這在成本考慮中也必須是組成部分之一。該方案的開放性比較差,不同廠家的存儲設備一般不能配合使用,不太利於投資保護、而且對於混合系統的災備服務仍然會出現難解的瓶頸。 

目前,大部分的中高端存儲陣列都已經具有了這一能力,而且在複製技術上也在不斷演變和成熟化。 

5) 虛擬存儲容災技術 

鑑於存儲系統在異構環境和平臺的種種制約,本世紀初,國際上,新興起了虛擬存儲的理論,而且日臻成熟。虛擬存儲的技術主要採用專門設立存儲服務層設備,對於所有連接後端的存儲數據實現專門的存儲服務,如異構存儲設備之間的數據倒送、存儲的數據的連續時間點快照和快速讀取、存儲數據的存檔保護、遠程備份中心的數據專用複製服務甚至於利用磁盤設備虛擬磁帶庫的仿真接口,從功能角度說,虛擬存儲技術解決了存儲的開放性連接問 題,容災的混合系統災備服務問題,災備數據的快速挖掘和多時間點利用問題,故障時數據的一致性問題,將系統的故障恢復時間大大提升(分鐘級別)。虛擬存儲技術所支持的存儲接口也包含了fc、iscsi、scsi等,適用環境相當廣泛。到目前爲止,這一技術在存儲的服務能力上是最爲強大的。目前,國際上正在興起的cdp(數據連續性保護技術)中,虛擬存儲技術也是實現最爲全面的技術。一般在複雜的生產系統、辦公系統、管理系統實現統一的災備服務的要求下,虛擬技術往往獲得良好的效果。國際上,虛擬存儲技術以美國飛康公司爲代表,此外,除了專業的虛擬軟件廠商之外,目前,一些存儲設備的廠商也紛紛推出支持虛擬化的產品,可見其發展勢頭。 

虛擬存儲技術在容災領域的運用時間還不長,一些人們還在觀望其實際使用的性能狀況。 

以上,是容災技術路線的常見表現形式。實際上,現在數據備份和連續複製的技術,已經產生了融合技術,這就是cdp的數據連續性保護技術,這一技術的出現,真正使得數據的點備份變成了連續跟蹤數據變化的多點精細跟蹤技術,使得傳統意義的備份系統已經淡化,而快速恢復以及任意時間點恢復已經成爲現實,試想,系統完全損壞後(包括硬盤),幾分鐘內,系統又通過遠程引導和恢復了起來,這在傳統的恢復技術中是不可想象的,實在是人們辦公、生產時的福音 

cdp技術的實現,真正意義使得數據複製和備份具有了高性能的rpo和rto的能力,克服漸進式的災難具有了殺手鐗。這一技術將在不遠的將來對於容災技術的架構產生又一次修正。 

總之,建立強大的容災系統,需要我們善於理性分析、跟蹤技術的脈搏,與時俱進。撥開迷霧,康莊之路在眼前。緊跟存儲脈搏,成功不再遙遠。 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章