机房360首页
当前位置:首页 » 数据中心资讯 » 如何应对数据中心突发事件(上)

如何应对数据中心突发事件(上)

来源:施耐德电气 作者:施耐德电气 更新时间:2017/4/10 16:51:48

摘要:文章描述对关键设备有效应急准备以及响应战略体系。内容由7部分组成,分为3类:紧急响应程序,紧急演习和事件管理。

  数据中心运维团队需能够在没有任何预警的情况下,能够迅速、有效地应对突发状况。对于不可预见的问题,故障、危险可导致人身伤害或宕机的情况,都需有应对措施。只有做好充分准备,才可以迅速响应,最大限度降低突发状况对数据中心影响,并有效防止事故再次发生。文章描述对关键设备有效应急准备以及响应战略体系。内容由7部分组成,分为3类:紧急响应程序,紧急演习和事件管理。

  即使经过专业设计与Tier IV认证的数据中心,也不能保证其100%的可靠性。由于IT系统意外停机,业务中断始终是一种潜在风险。做足准备是一种最好的抵御方式,并有助于确保及时应对。

  准备工作从为确定高风险故障(例如冷却设备受损,发电机启动失败等)到开启紧急操作程序(EOP),还需要制定和演练升级程序,以确保通知指挥系统,并随着形势的发展调派资源。

  应定期对运维团队成员进行情境演练,评估团队面对突发状况的反应与应激能力、个人对应急事件响应的状态与效果。一旦遇到突发状况,为降低其带来的影响,应在事后进行充分分析,找到发生事件根本原因,分析响应应急措施在处理这状况时的效果以及待改善的地方。对重大设备事件故障分析是全部完善过程的基本组成部分,最终目的在于降低故障率,并提高应对未来发生不可预见事件的处理速度。

  表1:简要概述数据中心有效应急准备和响应计划的主要方面。有七部分,被分组在三个分类中。


  首先我们来看EOP,需要对突发状况现场进行快速、安全地隔离,同时尽快恢复服务、提供急救是紧急响应流程中的最重要与关键的方面。

  接下来,危机管理计划(CMP)被描述为处理数据中心紧急情况、危机的总体计划,如果不定期检查,将导致灾难。(关于术语“危机”和“灾难”的解释,见下)。最后,应急演练和事件管理的作用被解释为一个方案的重要方面,以便为问题不断做好准备,并更好地发现问题在他们成为一个危机或更糟的,一场灾难。

  一、应急操作流程

  *名词释义:

  危机 :遇到紧急的,重要事件,如不能及时响应,将最终导致系统中断、业务亏损或人员受伤。

  危机管理计划(CMP)涉及准备,发现和缓解危机。

  紧急操作程序(EOP)用于应对危机,因为它正在发展以防止灾难的希望。例如:UPS冗余出现故障,发电机燃料用尽,UPS电池组故障等)

  灾难或紧急: - 导致系统严重损坏、停机,业务中断或人身伤害的事件或情况。

  一、应急操作流程(EOP):用于应对灾难或紧急

  示例:在UPS电池能源耗尽,火灾,开关设备时出现电弧爆炸等任何可能导致立即停机或受伤的情况。

  (说明:构成“危机”和“灾难”的事件因数据中心自身不同而不同,取决于各自认为关键或紧急的事件。)

  紧急操作流程(EOP):

  被就用于处理危机和灾难。 EOP流程应作为文档被留存,详细记录针对应对危机或灾难被批准的流程。响应流程包括:如何安全隔离故障;如何恢复服务或冗余。 EOP旨在使运维人员对遇到的突发事件做出正确的反应,从而达到安全的目的,并最大限度地减少紧急情况的持续时间与影响。

  EOP具有多重功能:

  首先,它帮助运维人员尽快将受影响的系统置于受控或稳定的状态。

  第二,它提供逐步指导,以确保所有活动都以安全和有效的方式进行。这样做是为防止进一步(或范围更广的)的服务中断,设备损坏或人身伤害。这些负面或可能甚至毁灭性的影响是由于以不受控制的方式执行工作,通过省略必要的步骤,或者通过不正确地执行,或半心半意地执行。

  第三是作为新操作员的培训工具。它们应被用作在员工培训计划中进行场景演练和测试的基础。在客户或管理层审计或评估时,它们也很重要,以证明有效的应急准备和响应。

  将EOP等同于标准操作程序(SOP)是一个常见的错误。 SOP为执行日常正常操作类型任务(例如将UPS置于旁路或其它维护任务)提供通用指导或指示。

  SOP涉及如何操作或维护系统。它没有描述如何处理和从故障或紧急情况中恢复系统。

  如果运维人员仅仅依靠SOP来了解设备如何运行与维护,其结果就导致应对紧急情况经验不足。导致故障发生原因与产生的后续影响通常与多个系统有关。另一方面,SOP通俗点儿说,就是固定的流程,灵活性不强。因此,SOP对于运维人员了解各个系统之间相互联系而言,并不实用。不过,具备这些知识却对于快速诊断和解决问题至关重要。此外,没有针对高风险故障情况的特定EOP流程,无法提前进行模拟演练,无法为此状况做更多准备。

  应将EOP文档副本流程张贴在执行区域周围。正本文件放在办公室保存。持续跟进EOP使用情况、实时根据需要修订EOP,确保使用执行时流程清晰简明。

  EOP是在故障发生后,保障系统运行稳定、和恢复系统的最重要的工具。EOP执行过程中需要运维人员具备丰富经验、参加过EOP模拟演练的,从而在EOP执行过程中明确他们担负的责任与任务,可以做到迅速响应。在开发EOP之前,先将所有可能的、或高风险的故障情况列出一份清单。最常见的故障见表2。应为每一个故障写一个EOP。当然,运维人员和他们的经理不能预见所有的问题,但他们可以预估最坏的情况,做好最坏的准备。

  所有这些文件都应被妥善保存。EOP执行只能由在现场的运维人员进行操作,外部承包商在某些情况下可以在运维人员指导下执行EOP中一些步骤。经验表明,经过一定培训的运维人员,可以有效地抵消遇到紧急情况下心理的恐慌感。对运维人员而言,做足充分准备意味着在千钧一发的那一刻,运维人员根据现场突发状况迅速做出判断,可以在紧要关头为数据中心挽回一部分损失。

  有效的训练方法是情境演练,通过预先设定好的情境,模拟故障发生时的情境。必要时,可以使用道具(如彩色便利贴)来模拟面板指示器或开关位置,以此锻炼运维人员的操作能力并评估他们对现场问题的反应能力。

  表2:


机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/2017410/n665195082.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片