摘要:灾难备份就是指利用技术、管理手段以及相关资源确保既定的关键数据、关键数据处理系统和关键业务在灾难发生后可以恢复的过程。一旦灾难发生,灾难备份中心就必须要在确定的时间内接替生产中心的运营、恢复既定范围内的业务运作、保障企业业务连续。 |
灾难备份的重要性显而易见,2001年“9.11”事件中,1000多家公司遭受损失,其数据资料流失严重,但其中做了异地备份的,当天就在其他地方恢复办公,而没有做灾难备份的,由于数据问题逐渐倒闭或消失等。在此次事件中,德意志银行在世贸大厦内的办公中心被摧毁,顿时失去与世界金融市场的业务联系,但几乎同时,其在芬兰的备份系统随即启用,当天继续完成超过3000亿美元的巨额交易。这些事例充分说明了灾难备份系统对当今商业银行信息系统的巨大作用。
灾难备份就是指利用技术、管理手段以及相关资源确保既定的关键数据、关键数据处理系统和关键业务在灾难发生后可以恢复的过程。一旦灾难发生,灾难备份中心就必须要在确定的时间内接替生产中心的运营、恢复既定范围内的业务运作、保障企业业务连续。2005年我国国务院颁布的《重要信息系统灾难恢复指南》(以下简称指南)中的定义,灾难是指由于人为或自然的原因,造成系统运行严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发事件。《指南》把灾难备份定义为:“为了灾难恢复而对数据、数据处理系统、网络系统、基础设施、技术支持能力和运行管理能力进行备份的过程。”
一个完整的灾难备份系统主要由:数据备份系统、备份数据处理系统、备份通信网络系统和完善的灾难恢复计划组成。在灾难备份系统建设中,数据备份是关键,如何将数据(包括系统、应用和业务等数据)完整、实时地复制到灾难备份中心,是灾难备份系统建设中首先要考虑的重点。
在灾难备份系统建设中,虚拟化软件的优势很明显。虚拟化软件能快速把工作负载自动转移到其他资源;能够把操作系统和应用,转移到在远处的其他虚拟机,使应用快速恢复,所需成本低。因而,虚拟化技术在灾难发生时能使业务保持连续,成为信息化管理的重要工具。
使用虚拟化灾难恢复策略时需要考虑以下要点:
1、恢复容量
制定虚拟化灾难恢复策略的时候很重要的一点是考虑容量。企业通常会认为恢复时容量利用率不会超过100%。事实上,由于恢复的启动阶段会将系统推向极致,所需容量可能会超过生产容量。此外,恢复过程中有大量的跟进工作,这些工作也需要容量。
2、配套资源
恢复能力虽然是需要考虑的重点,但其它各种支持生产环境的要素也要考虑在内。这些要素包括处理器资源(存储、设备界面等)、磁盘资源(存储阵列、存储场地网络SANs、磁盘簇等)、外围设备(控制单元、终端、刀片等)、基础设施(外部交换机)和网络连通性(交换机、带宽等)。
3、资源独立、网络冗余和可测量性
避免灾难恢复失败的一个重点是确保虚拟化资源保持独立,而不需要依赖主生产环境。网络冗余是指不仅为内部用户,还必须为外部用户(如客户、业务伙伴、供应商等)提供接入。可测量性则是处理灾难恢复和生产运营的工作量峰值所必需的。
4、恢复计划测试
制定虚拟化灾难恢复策略非常重要的一点是考虑对计划的有效测试。测试应在系统层面上全面进行,以有效地了解特定时间段内工作量对虚拟化资源的要求,同时验证业务的完整性和基础设施的有效性。虽然局部的功能测试更容易安排,但却无法保证测试结果的真实性,因此会导致测试的效果大打折扣。
5、重设工作量计划
不论是真实情况下还是演练过程中,恢复时都应该制定详细的计划来管理整个过程中不断变化的工作量。该计划应该包括一份高层认可的正式时间表,一份恢复时资源分配的备选工作计划,一个对偏移工作量的日常备份流程,以及一份在备用场地复原这些工作的经过测试的恢复计划。
6、灾难恢复风险控制
在制定虚拟化灾难恢复策略时应考虑到给业务带来的风险。由于虚拟化的固有弱点,距离可能会受到限制,但地理的多样性必须被考虑在内。恢复场所应该与企业已有的风险规避策略所明确的风险承受能力相符,而不应该是满足技术要求的结果。
7、清晰明确的工作量
在确定构成虚拟池的具体资源之前,很重要的一点是要了解灾难恢复的工作量。明确业务的优先次序和临界点,制定出与处理流程、应用的集成和相互依赖性、以及IT支持模块相关的详细计划,从而保证虚拟化环境的可恢复性。
8、保持完整性的规则
包括问题、变更、事件、配置和资产管理在内的严格的系统管理规则是实施任何新的虚拟化灾难恢复策略的前提。这对保持恢复环境的完整性是至关重要的,同时对虚拟化资源池的最终操作、监控和维护的有效性也是至关重要的。
9、业务和IT报告
对灾难恢复项目进程的跟踪、状态的传递和结果的报告是所有灾难恢复项目的重要输出,对于判断IT功能虚拟化所进行的大量投入的效果是非常重要的。
责任编辑:许剑