机房360首页
当前位置:首页 » CIO&信息化资讯 » 关于灾难恢复测试

关于灾难恢复测试

来源:机房360 作者:litao984lt编译 更新时间:2016-11-30 9:42:21

摘要:在您企业组织的灾难恢复测试计划(DRP)方面所花费的时间可能并不被列在您企业的待办事项列表清单的重要优先级一栏中,但其绝对应该是的。有一套IT恢复战略已然成为了当今任何规模的企业组织的关键,因为你永远不知道什么时候麻烦可能将至。你企业组织的规模很小也并不意味着你不会是黑客们攻击的目标;或者不会在某个不确定的时候被其他灾难所袭击。

  在您企业组织的灾难恢复测试计划(DRP)方面所花费的时间可能并不被列在您企业的待办事项列表清单的重要优先级一栏中,但其绝对应该是的。有一套IT恢复战略已然成为了当今任何规模的企业组织的关键,因为你永远不知道什么时候麻烦可能将至。你企业组织的规模很小也并不意味着你不会是黑客们攻击的目标;或者不会在某个不确定的时候被其他灾难所袭击。

  更重要的是,现如今的网络和系统变得更加复杂和强大,并且它们往往只依赖于“永远在线”的环境为客户提供服务。相同的系统还存储了敏感的数据信息,进而进一步增加了发生潜在问题的可能性。

  然而,你需要知道仅仅是有一套灾难恢复计划是远远不够的,其必须要能够有效、且高效地在您企业发挥作用。测试工作可能是成本相当昂贵且耗时的,但花费一定的时间来检验你企业的DRP可以验证你的恢复计划。其也有助于发现计划中所潜在的任何问题,以及需要改变的程序,以避免这些问题在未来的发生。

  你企业的灾难恢复计划应该将IT、人员和流程等诸多因素考虑在内,使企业业务的每一个领域都被覆盖,并为当灾难来临时做好充分准备。您企业经常应该多久测试一次灾难恢复计划?

  尽管对于企业应该多久测试一次灾难恢复计划这一问题,目前尚未有一个明确统一的标准答案,但您应该确保您的计划是最新的,并反映您企业当前的业务系统。一个好的通用指南是测试这些系统何时进行更改——例如,当主导测试员离开公司或新的IT系统已经到位时。时间间隔可以是每月或每年执行一次,具体频率取决于企业情况的变化。

  通过将业务和人员更新因素合并到变更管理计划中,您企业可以确保测试计划得以能够围绕您的业务运营方式进行设计。但是,您企业应始终做出规定,以确保您可以至少每年进行一次全面的测试,以确保任何小的更改不会影响DRP的其他方面。

  准备测试

  在测试您企业的DRP之前,您必须做好充分的准备,以确保结果尽可能逼真,并且该结果对未来的测试是有用的。确保每个具有灾难责任的员工都参与到每个测试过程中,并且不止一个员工能够执行所有的程序。这样,如果当发生突发情况使得一些人不能到场时,您的企业将依然能够在灾难发生期间更好地装备。

  那些创建了DRP的员工应避免参与测试过程。这种方法有助于确保指令内容能够很容易的遵循,并且适当地执行必要的任务。这还确保了该计划可以在其设计者缺席时进行,并且提供了关于在没有他们参与的情况下,完成该过程需要多长时间的一个很好的想法。

  测试过程中的每个细节都应记录下来,包括出现的任何问题以及整个操作运行的顺利程度。应该从测试的开始到结束的整个过程进行计时(除了对每个单独的部分进行计时,以查看完成每个单独的部分需要多长时间之外)。记录的最终信息是测试对业务的影响:停机中断如何影响整体运营,客户满意度和企业营收?

  测试方法

  1、对计划的审查

  对计划的审查是最基本的DRP测试;它涉及连续性管理和灾难恢复计划人员对现有流程的评估,并确定需要改进或潜在变化的领域。这部分可以定期进行,不会涉及到太多的资源消耗,应该是您的业务计划的一部分,每年执行多次。

  2、桌面演练

  桌面演练是对于每名员工是否都充分了解DRP,以及在发生灾难事件时都必须遵循哪些相应程序的一种很好的测试。其应该被视为一个严肃的排练。

  所有相关工作人员必须集合起来,集体执行灾难情景的演练,同时要有一个特定的目标。每个人都应该能够准确描述自己在某些条件下所将采取的行动,确保这些行动措施符合DRP。分析每个响应,并确定其是否达到目标。在这项工作期间,应确定和解决对流程的任何误解或DRP的任何不清晰。

  3、全面的测试

  全面的测试是为了验证您企业的DRP和流程。它必须尽可能接近现实生产场景。因此,你企业可能需要花费一定的时间和资金来模拟现实生产场景。您还必须考虑到系统和人员的停机时间,及其可能会对您企业的业务所造成的任何问题。一些公司选择将在测试时向员工们保密,以充分衡量他们在灾难发生时的反应。

  对于这些测试,您可能需要用到公司的资源(如恢复站点和备份系统),并在某些情况下允许人员离开站点,以部署备份系统,并重新启动业务技术。

  如果出现问题该怎么办?

  如果在DR测试期间出现问题,该问题可能会引起关注,但运行测试的目的就是为了识别和解决这些问题,以便在实际灾难期间不会发生这类问题。任何在测试条件下显而易见的故障在发生真正的灾难时会变得更加明显,因此任何故障问题都应该被立即解决。

  在测试期间所发生的任何故障都应该详细记录,以便在测试完成后对其进行分类和调查。这些详细记录信息应该用于修复任何问题和更新测试程序。由于您企业应该在每次进行更改时测试DRP,因而此时正是重新测试更改,以确保问题得到完全解决,并且未产生新的问题的最佳时间。你可以继续重新测试,直到你企业的DR计划顺利运行,而没有发现任何其他问题。

  在不同的场景下安排不同的工作人员进行测试,并确保每个工作人员都知道他们各自的具体负责。

  为了有助于设置一套DRP,你企业也可以向IT顾问咨询,以尽量确保你企业的DR计划是无懈可击的,并且没有忽略任何重要的方面。

  关于作者

  本文作者Donald K. Bowker是Sungard Availability Services的首席高级顾问。 Don在技术服务交付领域拥有超过30年的经验,曾参与过数百个与IT相关的项目,涉及从评估客户需求到解决方案交付到持续运营的所有项目阶段。他曾经的职位包括2年作为一家国际电信公司的信息技术总监;15年管理两家数据中心的技术服务和9年在Sungard Availability Services公司为全球财富500强企业和美国本土的中小企业客户提供运营弹性解决方案服务,Don负责领导战略项目的交付。他的成功是根据客户满意度和项目交付的时间和预算来衡量的。除了项目管理职责之外,Don还直接参与提供运营的弹性服务。

  责任编辑:DJ编辑

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/20161130/n329490169.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片