企业数据中心的灾难恢复计划能否在发生灾难时提供真正的支持？_机房360

摘要：当前，IT企业组织机构的CIO们所面临的必须不断削减成本方面的压力导致许多IT企业组织不得不被动接受面临更多风险的可能性，并自行心理安慰“他们所在企业数据中心的灾难恢复(DR)计划是全面可靠的”。

　　当前，IT企业组织机构的CIO们所面临的必须不断削减成本方面的压力导致许多IT企业组织不得不被动接受面临更多风险的可能性，并自行心理安慰“他们所在企业数据中心的灾难恢复(DR)计划是全面可靠的”。但事实上，当企业所规划制定的灾难恢复计划与业务需求不相匹配时，一旦发生灾难事故，这些灾难恢复计划很可能将无法奏效。

　　对于企业的高级管理层来说，灾难恢复计划的规划制定通常并不是最为重要的优先处理事项。而伴随着IT预算资金和团队规模的持续缩减，保持日常IT职责的顺利处理开始具有挑战性，许多IT团队倾向于只关注基础架构、硬件和软件，而忽视了执行计划所需的人员和流程。由此，复杂性被引入了资源不足的IT业务实践过程中，这可能会导致灾难恢复计划的不完整性，恢复测试失败，甚至更糟糕的情况是，企业遭遇到灾难事故，但而没有未能有效的执行任何快速恢复的举措。

　　为避免发生停机故障运行失败，真正了解贵公司是如何解决灾难恢复管理事务这一点是非常重要的。在某些情况下，您企业的IT团队可能并不愿意公开确定他们所关注的领域，而还有一些IT团队可能甚至都不知道他们的灾难恢复计划是否足够有效。

　　在本文接下来的阐述中，我们将为广大读者朋友们揭示关于企业所制定实施的灾难恢复计划，其IT团队最不愿意告诉他们的CIO的10大真相，并还将为您介绍您可用来向您企业的IT团队询问灾难恢复管理策略的相关问题。

　　一、某些情况下，IT团队所制定的灾难恢复计划或许无法满足企业的关键型任务应用程序的RTO / RPO。

　　不管您企业数据中心究竟是否顺利通过了上一次的年度灾难恢复测试。即使您企业数据中心确实通过了测试，该测试也仅仅只能预测您企业是否真的能够满足业务要求所规定的恢复时间目标(RTO)和恢复点目标(RPO)。许多企业的IT领导者们并没有充分考虑到的是：灾难恢复测试是在受管理的条件下进行的，并且可能需要花费几个月的时间进行规划。

　　大多数停机中断的原因(包括电源故障、人为操作错误、硬件故障)都不会引发企业IT团队的足够重视。确定恢复管理计划是否成功的最重要的一大因素是：该计划是否能够充分的反映贵公司数据中心的日常变更管理任务，以便尽可能的与您企业的生产操作运营环境完美同步。今天，企业的关键型任务应用程序有许多经常变化的依赖项。如若不制定并充分贯彻执行持续的灾难恢复测试，此前原本可行的恢复计划到现在或许已经无法恢复重要业务应用程序的可用性了。

　　该向IT团队询问的问题：我们企业数据中心最近一次成功测试所有关键任务应用程序的RPO和RTO的测量结果如何?

　　二、我们企业数据中心的灾难恢复计划其实仅仅只是触及了一点皮毛。

　　企业需要在充分兼顾到其对于企业员工的影响和数据中心的长期可用性的背景下来考虑贵公司的灾难恢复管理功能。确定您企业的灾难恢复中心所能够支持的停机中断的时长应该会影响到贵公司的灾难恢复计划方法。了解如何管理辅助站点也很重要。而最有可能的情况是，您企业或将需要派遣相关的工作人员到辅助站点进行灾难恢复工作的处理，并维护临时生产运营环境，但在发生自然灾害时这方面的处理可能并不容易。您无法假设每次一当发生自然灾难，相关派遣的工作人员就可以在第一时间就准确识别受灾难影响的位置，并及时赶到进行处理。

　　如果您企业数据中心具备灾难恢复功能，则必须确保您企业的相关工作人员能够充分了解这些程序和命令链。例如，在类似飓风桑迪这样的自然灾害发生之后，一旦大规模的洪涝灾害导致许多道路关闭长达数周的时长，而同时又出现汽油供应短缺，使许多人无法顺利通勤，这些问题便立即成为企业数据中心最为重要的问题。

　　该向IT团队询问的问题：在发生重大灾难之后，如果我们的数据中心长达几天或几周缺乏足够的电力供应、或者数据中心建筑物受损、又或者通信链路出现故障，我们将能够做些什么?

　　三、我们知道如何将故障转移到灾难恢复站点，但我们对于如何进行故障恢复的相关经验和能力却缺乏了解。

　　故障转移和故障恢复对于企业数据中心执行灾难恢复计划是至关重要的。故障恢复通常是执行灾难恢复计划过程中最具颠覆破坏性的元素。通过借助故障恢复，大多数进程必须逆转。发生故障转移时，辅助备份站点必须与主站点重复。该辅助备份站点必须能够支持您企业数据中心的生产运营环境，并在一段时间内提供与主站点相同的保护能力。故障恢复意味着您企业的数据中心正在寻求恢复生产运营环境。恢复到主环境的方式与故障转移的方式相同，但方向相反。对于此方案的测试也应充分执行，记录和控制。未经充分记录和测试的灾难计划的相关组件可能会迫使您企业数据中心在无奈之下需要长时间的依赖您的辅助站点，从而增加了巨大的业务成本(更不用说对您IT团队的员工们造成可能的压力)。

　　该向IT团队询问的问题：我们在执行灾难恢复计划的测试期间，是否测试了故障恢复功能?

　　四、我们的运行手册很有可能无法使用。

　　您企业数据中心的运行手册应包含您和您的员工执行日常操作以及当响应紧急情况时所需的所有信息，包括有关主数据中心及其硬件和软件的资源信息。操作流程的逐步恢复过程也是一大关键组件。如果程序没有经常更新，或者没有经过主要利益相关方的彻底审查，那么即使没有发生完全的停机故障，恢复过程也会大大减慢。请务必记住，恢复所需的时间越长，相应所涉及的成本就越高。根据市场调研服务商Aberdeen Group估计，企业数据中心每小时的停机中断的平均成本为160,000美元。

　　该向IT团队询问的问题：我们多久评估和更新一次灾难恢复计划?

　　五、在变革管理方面，我们没有改变。

　　现如今，企业在高度动态的生产操作运营环境下，不断的变革是唯一不变的趋势。下一代数据中心技术(如虚拟化技术)的迅速普及采用可以方便管理运营人员们更轻松地创建和部署应用程序，分配和配置存储以及设置新系统。但是，这些更改发生的难易程度和频率可能会妨碍您的管理运营团队在恢复站点上对这些更改实施正确的记录。如果没有正确执行更改管理，辅助和备份环境可能会快速与生产环境失去同步，从而导致恢复失败。

　　该向IT团队询问的问题：我们做了什么工作来确保我们的测试环境能够真实的反映我们数据中心的实时生产运营环境?

　　六、我们的确通过了审查，但这并不意味着我们可以顺利实现灾难恢复。

　　通过相关的审核意味着您企业数据中心有一套满足执行灾难恢复特定要求的计划。但这并不意味着您企业的这份计划将能够提供足够的可恢复性。大多数审核员并不关注灾难恢复计划的变量，也不会关注每个应对处理灾难情景的计划有效性。它们只能确保您企业数据中心满足了审计本身所规定的静态要求。而事实情况则是，您企业数据中心很可能通过了审核，但仍无法从实际的灾难事故事件中及时恢复。

　　该向IT团队询问的问题：我们最近一次测试灾难计划是在什么时候?

　　七、我们的IT操作运营环境正在变得过于复杂。

　　企业数据中心当前的业务操作运营环境正在变得更加动态化，并且越来越依赖于越来越多的应用程序。关键的第1层应用程序可能需要一个已分类为第3层的数据库才能正常运行。恢复全部服务将需要恢复所有这些要素。因此，您企业数据中心需要相应地对应用程序进行分层，这可能需要调整分层环境，以确保您能够顺利处理所有相互依赖性。复杂的基础设施将需要分层，这也因此是的灾难恢复变得更加困难。

　　该向IT团队询问的问题：我们如何对相关的应用程序实施分层，以帮助执行灾难恢复?

　　八、备份并不会让我们的业务进一步朝前发展。

　　备份本身并不是灾难恢复解决方案，但它是成功恢复管理计划的关键组成部分。无论是将数据复制到磁盘、磁带还是两者的组合，在存储介质之间迁移数据都是很慢的。如果迁移和恢复数据所需要花费的时间长到无法令人接受，那么执行测试可能是不现实的。恢复时间问题也会导致企业数据中心放弃定期测试恢复过程，这可能导致数据的丢失。

　　该向IT团队询问的问题：我们如何将数据管理实践方案集成整合到我们的灾难恢复管理计划和测试中?

　　九、我们既没有充分进行测试，也没有足够的时间和人手来安排执行恰当的测试。

　　目前，大约只有20-30%的业务连续性和灾难恢复 (BCDR) 经过了测试，而且其中许多计划的测试都失败了。虽然您企业数据中心的确制定了灾难恢复计划，并且可能也通过了测试，可以恢复大多数关键型任务应用程序，但是还必须根据测试频率测量总恢复状况，并大致掌握执行和验证测试所需的资源。您企业数据中心可能已制定了灾难恢复计划，但如果没有可用的资源或未进行实际的测试，则无法验证是否成功。测试应用程序的恢复过程与从头重建数据中心有很大不同，并且仅仅72小时的测试窗口是不够的;

　　该向IT团队询问的问题：我们数据中心内部所具备的带宽和专业知识是否足以实现完全的灾难恢复?

　　十、我们并不热衷于让别人来代为执行灾难恢复工作。

　　您企业数据中心可能会意识到选择采用灾难恢复工作外包这一方案，但这可能会导致IT团队对自己的工作安全感到担忧，并且在更实际的层面上，可能会影响到他们对于数据中心的控制管理水平。但是，与灾难恢复服务提供商们合作的好处实际上是：通过允许企业数据中心的操作运营人员们专注于核心战略项目，而非一般性的重复运营任务，来补充他们的技能集，同时提高业务的整体可恢复性。根据IDC最近的一项调研显示，对于在内部自行实施IT恢复的企业而言，其各种业务功能(包括诸如，销售/营销、融资、电子商务)在每次发生灾难事件的平均损失为400万美元，而那些与灾难恢复服务供应商合作的企业平均每次事故的损失则仅为110万美元。

　　该向IT团队询问的问题：我们是否拥有灾难恢复方面的专业知识，以确保灾难恢复工作能够取得成功?

　　结论

　　简单地制定一套灾难恢复计划并不能保证企业数据中心能够及时的从停机中断或自然灾害引发的中断中恢复。而备份计划需要经过深思熟虑的流程补充，企业数据中心必须针对员工进行良好的培训，以执行所需的程序。

　　此外，企业数据中心的业务计算环境的动态特性意味着需要经常评估、更新和测试其灾难恢复计划。必须考虑实施变更管理，以确保辅助系统与主站点的系统保持一致。

　　由于在当今竞争激烈的市场中对可用性的迫切需求，我们无法想当然的认为企业已经制定的灾难恢复策略真的如其所宣称的那样有效。故而企业高层管理人员们必须提出恰当的问题来解决问题的核心。确保一旦发生灾难，您企业数据中心的灾难恢复策略计划能够真正奏效成功。

　　责任编辑:DJ编辑

JIFANG360.com - 机房360

企业数据中心的灾难恢复计划能否在发生灾难时提供真正的支持？