广泛应用的容灾技术

   2年前的9.11事件震惊了全世界,随着世贸中心的坍塌,数百家在世贸内办公的公司也遭到了毁灭性的打击。它们不仅损失了优秀的人才,很多对企业生存、发展至关重要的数据也完全丢失,许多公司因此倒闭。而著名的财经咨询公司摩根斯坦利虽然也在这起恐怖袭击中遭到重创,但它在第二天就奇迹般的恢复了业务,这完全得益于该公司在新泽西的Teaneck市建立的一个容灾中心。
    9.11事件使得人们更加重视数据安全和业务连续性的问题,也间接推动了容灾技术的发展。在国内,很多电信、金融等行业的高端用户也都开始规划、建设自己的容灾中心,使得容灾逐渐成为比较热门的话题。作为国内电信行业最大的软硬件供应商,华为公司也在HLR、智能网、客服中心等领域为客户推出了自己的容灾解决方案。
本文将简要介绍目前业界几种主流的容灾技术,希望起到抛砖引玉的作用,并使大家对容灾技术有初步的了解。
容灾系统的关键指标
   容灾系统就是建立一个异地的系统,该系统是本地生产系统的一个复制。在本地系统出现灾难时,系统在异地保存有一份可用的业务系统。当发生灾难或其它原因使得主系统长时间不可用时,可以将应用切换到容灾系统,从而保证业务的连续性。
一般来说,容灾系统应该对以下五类情况实现容灾:
──地震、战争、火灾等自然灾害和其它不可抗力的灾难
──长时间无法恢复性停电、大楼损坏等外部设备损坏的灾害
──主机升级、检修等计划性或策略性宕机等长时间无法正常工作
──人为失误造成的灾害(如主机系统、数据信息被严重破坏等)
──长时间无法修复电路中断(局域或广域网线路故障等)

对容灾系统而言,有两个指标非常关键:
    恢复时间目标(RTO):即灾难过后,必须恢复数据以便重新开始业务的最长时间,即业务中断的最长时间。这个指标关系到业务连续性系统对灾难的控制能力。
恢复点目标 (RPO):这个指标的含义是灾难过后,必须应用数据以便重新开始业务交易的时间点,意即恢复后的数据有多长时间的数据丢失。

容灾系统的目标
我们认为一个理想的容灾系统,应该具备以下几个特点:
支持热容灾(即主备节点可以并发使用)

    热容灾就是指容灾系统总是处于打开状态,该系统上的数据可被其他相关系统所读取,有关应用软件的工作量可以被容灾端的设备资源分担。这将使容灾系统不仅起到容灾的作用,也可以起到一定的负荷分担作用,从而大大提高容灾系统的投资回报率。
支持异构平台
   指主系统与容灾系统上的硬件、OS、数据库版本可以随意选择,二者采用的平台不一定相同,但是两系统可以识别同样的数据。

无数据丢失
    一个理想的容灾系统与主系统的数据应该完全同步,如果主系统发生灾难,应用切换到备系统后应该做到不丢失任何数据。
切换速度快,成功率高
   理想的容灾系统应该能够做到成功的快速切换
   复杂程度适中(包括实施和维护)
因为太复杂的容灾方案,系统的稳定性可能会受影响,维护成本相应会增大很多;
对主系统系统资源占用小
   为保证容灾系统与主系统数据的一致性,不同的容灾方案有自己不同的数据同步方法,这些数据同步手段可能会给主系统的性能带来严重影响;
成本适中
   对用户而言,如果容灾方案的成本超过了被保护数据的价值,那么再好的容灾方案也是不可接受的。
当然,以目前的容灾技术,这种理想的容灾系统可能并不存在,所以在制定容灾方案时要对各方面做综合考虑,选取一个相对合理的方案。

4.1应用级容灾
    应用级容灾是指在应用程序中嵌入数据同步的功能,主备双方采用相同的应用软件,两套系统具有相同的处理能力,从而实现容灾的目的。这种方案全部依赖于应用软件,根据业务处理的特点来完成系统和数据处理的同步,从而大大减少主系统和备系统同步所需的信息,降低了对网络带宽的需求。它的缺点是系统的软件复杂度较高,从而导致日后在增加新业务功能时
金蛋软件维护成本增加。
    应用级容灾因为复杂度较高,且要修改原有应用程序,因此有一定的风险,成功的案例并不多。但在某些情况下,应用级容灾因为灵活性较高,容灾端可同时负担生产任务等原因,也会成为容灾方案的首选。
    比较典型的案例是国内某电信运营商的清算系统。该运营商原清算中心设在北京,为抵御区域性灾难,在深圳又建立了一个清算中心,两个中心互为备份,构成容灾系统。北京中心负责国际清算任务,深圳中心负责国内清算任务。因为北京深圳间2000多公里的距离、TB级的数据、每日上千万张话单,且要求支持热容灾,这对任何依赖于硬件或单纯数据复制技术的容灾方案都存在着难于克服的技术障碍。这种情况下,应用级容灾几乎成为唯一的选择。          、
    该容灾系统在软件系统结构上主要分为三个层次:应用层、容灾同步管理平台、主备同步数据传输层。容灾系统的核心为容灾同步管理平台,主要包括同步索引管理器、
倾角传感器、结果导出/导入、软件版本控制、容灾应用程序接口;应用层为系统应用程序,通过容灾应用程序接口与容灾平台相联,也包括容灾系统特有的主备差异报表及容灾平台的维护与配置界面;传输层为容灾文件传输,负责在主备系统之间传递容灾同步平台产生的同步数据。
    容灾系统还包括容灾的监控和切换工具,负责监测主备系统状态,为潜在的灾难提供报警,并在灾难发生后完成主备系统切换等操作。容灾系统还对原系统管理和高可靠性管理进行改造,以保证容灾系统的安全性和可靠性等。另外为确保整个容灾系统的正常运作,并且在灾难发生时迅速决策和切换,还建立了一套完善的容灾运作管理规范和规章。同时为保证应用程序更新及新业务的开发能够同容灾平台配合协作,也建立起了严格的软件开发规范。
     该系统开发完毕上线后运行基本正常,并做了多次的容灾切换演习,基本达到了当初的设计目的。以下是对应用级容灾的总结。
4.2数据级容灾

    目前应用最广的是数据级容灾,即在远程建立一个容灾中心,该中心的数据通过一定的机制保持与主系统的同步。根据数据同步技术的不同,数据级容灾又可分为以下几类:基于文件(卷)复制的软件容灾方案;基于专用存储设备的硬件复制容灾方案;基于数据库日志复制的容灾方案。
4.2.1 基于文件(卷)复制的软件容灾方案
    目前基于文件(卷)复制的软件容灾方案已经比较成熟,该技术的代表是Veritas公司推出的基于卷复制的容灾方案。Veritas的容灾系统由Veritas Volume Manager(VxVM)和Veritas Volume Replicator(VVR)组成。
    VERITAS Volume Manager(简称VxVM) 在物理磁盘上建立多个或一个逻辑卷(Volume)。以裸设备的方式使用卷,或在卷上建立文件系统。将数据(特别是需要进行远程复制的相关文件系统、数据库)存放在卷上。由于数据复制是基于卷的,所以,Volume 是进行VVR进行复制的基础。VERITAS Volume Replicator(简称VVR)负责远程数据复制。VVR复制基于Volume进行。复制的数据可以是数据库中的数据(文件方式或裸设备方式)和文件,复制方式可以是同步也可以是异步。

    这种复制方式可以支持任何数据库,支持同步/异步的复制模式,支持不同厂家的磁盘阵列(但主备节点的阵列类型必须相同)。它的缺点是占用主机资源,主机写操作性能受距离影响较大,而且不支持异构平台,容灾端数据基本不可用。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章