日本財險前瞻2012年IT發展 CDP技術助力異地災備

保險公司被譽爲是“運營在數據上的企業”,數據的重要性勝於一切,一旦數據丟失,公司的信譽、形象將遭受無法挽回的損失,直接影響公司的經營。如何高效管理並確保呈爆炸性增長的海量數據變得日益緊迫和重要。雖然各保險公司十分重視災備系統的建設,陸續完成了基本容災系統的IT基礎架構建設,但如果沒有相應的災難恢復計劃,也沒有針對災難發生後的應對、決策、詳細的災難恢復步驟,容災系統將難以發揮真正功效。保險業越發展,數據“保險”越重要。相信在保監會的政策支持和引導下,越來越多的保險公司終將爲核心業務數據找到安全的容身之所,爲保險業安全持續運行提供重要保證。

日本財產保險公司總部位於東京,成立於1888年,迄今已有100多年曆史,是美國《財富》雜誌評選的“全球500強企業”之一。2005年7月,日本財產保險公司率先在中國大陸成立了現地法人公司--日本財產保險(中國)有限公司,以下簡稱日本財險(中國),是首家在中國華北(大連)、華東(上海)、華南(廣州)三個地區同時開展營業的日資財產保險公司,最近也在蘇州開設了第四家分公司。這是唯一將中國總部設在東北地區的外資財險法人公司。

爲了提高自身的風險管理能力,確保現在和未來信息系統的安全以及業務的穩定運行,同時符合行業監管要求,日本財險(中國)希望能根據公司業務特點及IT架構特點,構建IT災備系統,保持災備系統的業務架構與生產系統業務架構相一致,以保證災備系統運行的完整性。這需要建立完善的應用級災備體系,確保災備端主要應用系統運行的獨立性和高效性。同時,提高災備環境的利用效率,降低災備建設綜合成本。最後必不可少的是制定完整的信息系統應急預案和業務恢復預案,並進行相應的應急演練。

在自身意識提升的同時,保險行業監管要求也越來越嚴格。2008年3月,中國保監會發布《保險業信息系統災難恢復管理指引》,對最低的災難恢復能力等級進行了詳細描述和規定,即:針對信息系統短時間中斷會造成重大社會影響或影響保險機構關鍵業務功能,並造成重大經濟損失的信息系統,必須具備第4級電子傳輸及完整設備支持,RTO<=36小時、RPO<=8小時;針對信息系統短時間中斷會造成較大社會影響或影響保險機構部分關鍵業務功能,並造成較大經濟損失的系統必須具備:第3級電子傳輸和部分設備支持,RTO<=72小時,RPO<=24小時;針對間接支持關鍵業務功能或對系統中斷具有一定容忍度的系統,必須具備第2級備用場地支持,RTO<=7天,RPO<=36小時。

同時,《保險業信息系統災難恢復管理指引》對保險公司信息系統災備建設進度和災難恢復能力進行了明確要求:“保險機構應統籌規劃信息系統災難恢復工作,自《指引》生效起5年內至少達到《指引》規定的最低災難恢復能力等級要求。”

由於日本財險(中國)公司相對來說,成立時間比較短,數據量較小(10T左右),IT系統採用的技術更爲成熟,不會出現國內保險公司慣常會遇到的新舊系統遷移、統合的問題。更多考慮的是如何確保但所有數據、應用,核心的IT服務都集中在生產中心時,如何應對絕大部分風險,尤其應對區域性風險,保證數據的高可用性和高恢復率。由於在自己公司建立數據中心對IT人力資源和運維考驗很大,日本財險(中國)電腦部經理關欣在對自建模式和外包模式綜合比較後認爲,災難恢復外包不僅成本更加低廉、安全、可靠,而且服務效率、服務水平更有保障。


日本財險(中國)電腦部經理關欣

再確立了數據中心外包模式之後,合適的災難恢復技術選型成爲擺在日本財險(中國)IT人員面前最爲重要的問題。在比較市場主流的數據複製備份技術之時,EMC、Double-Take、飛康都在考慮範圍之內。日本財險(中國)對於選擇數據複製備份技術的主要考量是基於,首先是異地對網絡帶寬的要求,不希望在日常運維上的網絡投入太高,希望在窄帶環境下,實現RPO的要求。在考慮是選擇基於存儲還是基於主機的複製技術時,考慮到基於存儲的複製技術在國內沒有成功案例,今後如果部署在災備中心,而生產中心有任何主機上的變更,應用層有任何變更都需要在災備層需要重新做一遍,對日常運維工作壓力比較大。最後經過多番的論證和考慮,最後還是選擇了飛康CDP來實現整個企業的災難恢復。

日本財險(中國)使用VMware虛擬化架構作爲災備中心的X86服務器基礎架構,在災備中心利用VMware VSphere Enterprise軟件部署虛擬化平臺主機(ESX Server),建立X86服務器高可用羣集,實現動態、自我優化的 IT 基礎結構的基礎;將物理服務器上的處理器、內存、存儲器和網絡資源抽象到多個虛擬機中。利用飛康CDP技術,將生產中心由CDP複製的系統和數據通過P2V技術重新配置後,實現物理環境到虛擬環境的災難備份。由外包服務提供商幫助日本財險(中國)組織和實施模擬切換演練服務,制定應急切換演練方案,並負責演練過程中技術操作,包括災備系統物理到虛擬機的轉化啓用,並對演練過程進行跟蹤和事後評估。

由於保險會的指引裏要求異地容災備份必須在500公里以上,而日本財險(中國)將其業務數據全部大集中在大連,而其選擇了北京的數據中心外包服務商,遠程的災備系統成爲必然的選擇。用遠程的災備系統抵禦站點級災難非常有效,但用來應對發生機率相當高的本地故障,無論從成本、流程和效率上都是不可想象的。因此,將內在/外在故障、本地/異地災難分層次恢復體系纔是最爲理想的恢復架構。

採用飛康CDP實現分層次災備保護,則可以獲得極高的保護效果,真正實現“內部故障本地修復,站點災難異地恢復”:

1、存儲設備故障時,應用系統依然運行
2、數據丟失後,可以在2分鐘內迅速找到正確的數據(包括在本地和異地)
3、數據庫一旦癱瘓,可以在10分鐘內,完整恢復未癱瘓的數據庫系統
4、任何站點級災難,可以在異地迅速提升CDP系統,甚至部分接管運行。也可以實現差量回退到生產中心
5、異地容災最小帶寬需求只有2-5Mb/s

另外,到底可不可回退,也是日本財險(中國)非常關注的問題,雖然業界大多數廠商提供的都是否定的答案,但是在關欣看來,回退是整個災備系統必不可少的環節之一。並專門搭建POC環境,和飛康一同進行測試,並得以實現。飛康本地有個CDP的保護,備份關係做互換,先是同步生產中心的CDP存儲上,生產中心可先啓用CDP本地的數據盤,等確認災備中心回退到生產中心的數據沒有差異後,就可以把數據重新劃歸到生產中心的主機上。業務系統的變動是有風險的,如果核心上線時出現故障(例如運行異常、系統異常、存儲異常等),可以立即回退到原有核心繫統,或者利用飛康的快照技術(在CDP設備只需要拖動鼠標)回退到上線之前的最後一個時間點。

總結下來,關欣的體會在於災備項目通常投入都比較大,慣常的都會說IT如何支持業務發展,但IT首先要保證的是業務系統的持續穩定的運行,一旦出了問題首先肯定會找IT部門。核心是,災備中心本身幫助生產中心抵禦風險的,如果災備中心不可靠,那麼就生產中心也不會支持。所以選擇關鍵的災難恢復技術和產品,成爲IT系統能支持業務發展的重要保證。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章