日本财险前瞻2012年IT发展 CDP技术助力异地灾备

保险公司被誉为是“运营在数据上的企业”,数据的重要性胜于一切,一旦数据丢失,公司的信誉、形象将遭受无法挽回的损失,直接影响公司的经营。如何高效管理并确保呈爆炸性增长的海量数据变得日益紧迫和重要。虽然各保险公司十分重视灾备系统的建设,陆续完成了基本容灾系统的IT基础架构建设,但如果没有相应的灾难恢复计划,也没有针对灾难发生后的应对、决策、详细的灾难恢复步骤,容灾系统将难以发挥真正功效。保险业越发展,数据“保险”越重要。相信在保监会的政策支持和引导下,越来越多的保险公司终将为核心业务数据找到安全的容身之所,为保险业安全持续运行提供重要保证。

日本财产保险公司总部位于东京,成立于1888年,迄今已有100多年历史,是美国《财富》杂志评选的“全球500强企业”之一。2005年7月,日本财产保险公司率先在中国大陆成立了现地法人公司--日本财产保险(中国)有限公司,以下简称日本财险(中国),是首家在中国华北(大连)、华东(上海)、华南(广州)三个地区同时开展营业的日资财产保险公司,最近也在苏州开设了第四家分公司。这是唯一将中国总部设在东北地区的外资财险法人公司。

为了提高自身的风险管理能力,确保现在和未来信息系统的安全以及业务的稳定运行,同时符合行业监管要求,日本财险(中国)希望能根据公司业务特点及IT架构特点,构建IT灾备系统,保持灾备系统的业务架构与生产系统业务架构相一致,以保证灾备系统运行的完整性。这需要建立完善的应用级灾备体系,确保灾备端主要应用系统运行的独立性和高效性。同时,提高灾备环境的利用效率,降低灾备建设综合成本。最后必不可少的是制定完整的信息系统应急预案和业务恢复预案,并进行相应的应急演练。

在自身意识提升的同时,保险行业监管要求也越来越严格。2008年3月,中国保监会发布《保险业信息系统灾难恢复管理指引》,对最低的灾难恢复能力等级进行了详细描述和规定,即:针对信息系统短时间中断会造成重大社会影响或影响保险机构关键业务功能,并造成重大经济损失的信息系统,必须具备第4级电子传输及完整设备支持,RTO<=36小时、RPO<=8小时;针对信息系统短时间中断会造成较大社会影响或影响保险机构部分关键业务功能,并造成较大经济损失的系统必须具备:第3级电子传输和部分设备支持,RTO<=72小时,RPO<=24小时;针对间接支持关键业务功能或对系统中断具有一定容忍度的系统,必须具备第2级备用场地支持,RTO<=7天,RPO<=36小时。

同时,《保险业信息系统灾难恢复管理指引》对保险公司信息系统灾备建设进度和灾难恢复能力进行了明确要求:“保险机构应统筹规划信息系统灾难恢复工作,自《指引》生效起5年内至少达到《指引》规定的最低灾难恢复能力等级要求。”

由于日本财险(中国)公司相对来说,成立时间比较短,数据量较小(10T左右),IT系统采用的技术更为成熟,不会出现国内保险公司惯常会遇到的新旧系统迁移、统合的问题。更多考虑的是如何确保但所有数据、应用,核心的IT服务都集中在生产中心时,如何应对绝大部分风险,尤其应对区域性风险,保证数据的高可用性和高恢复率。由于在自己公司建立数据中心对IT人力资源和运维考验很大,日本财险(中国)电脑部经理关欣在对自建模式和外包模式综合比较后认为,灾难恢复外包不仅成本更加低廉、安全、可靠,而且服务效率、服务水平更有保障。


日本财险(中国)电脑部经理关欣

再确立了数据中心外包模式之后,合适的灾难恢复技术选型成为摆在日本财险(中国)IT人员面前最为重要的问题。在比较市场主流的数据复制备份技术之时,EMC、Double-Take、飞康都在考虑范围之内。日本财险(中国)对于选择数据复制备份技术的主要考量是基于,首先是异地对网络带宽的要求,不希望在日常运维上的网络投入太高,希望在窄带环境下,实现RPO的要求。在考虑是选择基于存储还是基于主机的复制技术时,考虑到基于存储的复制技术在国内没有成功案例,今后如果部署在灾备中心,而生产中心有任何主机上的变更,应用层有任何变更都需要在灾备层需要重新做一遍,对日常运维工作压力比较大。最后经过多番的论证和考虑,最后还是选择了飞康CDP来实现整个企业的灾难恢复。

日本财险(中国)使用VMware虚拟化架构作为灾备中心的X86服务器基础架构,在灾备中心利用VMware VSphere Enterprise软件部署虚拟化平台主机(ESX Server),建立X86服务器高可用群集,实现动态、自我优化的 IT 基础结构的基础;将物理服务器上的处理器、内存、存储器和网络资源抽象到多个虚拟机中。利用飞康CDP技术,将生产中心由CDP复制的系统和数据通过P2V技术重新配置后,实现物理环境到虚拟环境的灾难备份。由外包服务提供商帮助日本财险(中国)组织和实施模拟切换演练服务,制定应急切换演练方案,并负责演练过程中技术操作,包括灾备系统物理到虚拟机的转化启用,并对演练过程进行跟踪和事后评估。

由于保险会的指引里要求异地容灾备份必须在500公里以上,而日本财险(中国)将其业务数据全部大集中在大连,而其选择了北京的数据中心外包服务商,远程的灾备系统成为必然的选择。用远程的灾备系统抵御站点级灾难非常有效,但用来应对发生机率相当高的本地故障,无论从成本、流程和效率上都是不可想象的。因此,将内在/外在故障、本地/异地灾难分层次恢复体系才是最为理想的恢复架构。

采用飞康CDP实现分层次灾备保护,则可以获得极高的保护效果,真正实现“内部故障本地修复,站点灾难异地恢复”:

1、存储设备故障时,应用系统依然运行
2、数据丢失后,可以在2分钟内迅速找到正确的数据(包括在本地和异地)
3、数据库一旦瘫痪,可以在10分钟内,完整恢复未瘫痪的数据库系统
4、任何站点级灾难,可以在异地迅速提升CDP系统,甚至部分接管运行。也可以实现差量回退到生产中心
5、异地容灾最小带宽需求只有2-5Mb/s

另外,到底可不可回退,也是日本财险(中国)非常关注的问题,虽然业界大多数厂商提供的都是否定的答案,但是在关欣看来,回退是整个灾备系统必不可少的环节之一。并专门搭建POC环境,和飞康一同进行测试,并得以实现。飞康本地有个CDP的保护,备份关系做互换,先是同步生产中心的CDP存储上,生产中心可先启用CDP本地的数据盘,等确认灾备中心回退到生产中心的数据没有差异后,就可以把数据重新划归到生产中心的主机上。业务系统的变动是有风险的,如果核心上线时出现故障(例如运行异常、系统异常、存储异常等),可以立即回退到原有核心系统,或者利用飞康的快照技术(在CDP设备只需要拖动鼠标)回退到上线之前的最后一个时间点。

总结下来,关欣的体会在于灾备项目通常投入都比较大,惯常的都会说IT如何支持业务发展,但IT首先要保证的是业务系统的持续稳定的运行,一旦出了问题首先肯定会找IT部门。核心是,灾备中心本身帮助生产中心抵御风险的,如果灾备中心不可靠,那么就生产中心也不会支持。所以选择关键的灾难恢复技术和产品,成为IT系统能支持业务发展的重要保证。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章