机房360首页
当前位置:首页 » 数据中心资讯 » 如何应对数据中心突发事件(下)

如何应对数据中心突发事件(下)

来源:施耐德电气 作者:施耐德电气 更新时间:2017/4/10 16:58:12

摘要:数据中心运维团队需能够在没有任何预警的情况下,能够迅速、有效地应对突发状况。对于不可预见的问题,故障、危险可导致人身伤害或宕机的情况,都需有应对措施。只有做好充分准备,才可以迅速响应,最大限度降低突发状况对数据中心影响,并有效防止事故再次发生。文章描述对关键设备有效应急准备以及响应战略体系。内容由7部分组成,分为3类:紧急响应程序,紧急演习和事件管理。

  表3


  所有事件应根据严重程度分配“等级”级别,第1级是最严重的,第5级是最不严重的级别。事件类的摘要定义如下:

  第1类:人身安全

  此类覆盖其它所有类。对人身造成生命威胁比对IT负载造成的威胁更重要。数据中心运维团队职责是通知应急响应团队,致电911,根据需要协助安全,并将责任传递给安全部门。本类别涵盖火灾、自然灾害、对人类生命的威胁和物理安全威胁。在经由数据中心内安全部门、消防部门或警察确认第1类事件后,数据中心管理层必须决定如何在工作环境中进行其它所需的恢复工作。

  第2类:关键设施

  定义为lT中断功能的事件,或者任何制冷系统或电气中的“N”丢失。可以通过询问两个问题来确定二级情况:IT在负载的冷却或电气支持方面是否丢失了“N”(冗余)? 或者丢失任何关键的IT负载? 第二类事件是“恢复”情况,需要数据中心管理层做出决策,才能执行恢复操作。

  第3类:严重

  没有其它备份系统可用; 即冗余已经从“N + 1”减少到“N”。还涵盖任何非调度发电机运行。当定义这个类时,需要问:“我们有额外的备份或空间吗?”如果答案是“否”,那么必须假定类3。

  第4类:重要

  关键系统冗余仍然可用,即存在“N + 1”。 由于可能存在的“冗余”的许多定义,第4类可能难以定义。 例如,在11号楼,服务器楼层的CRAC单位的损失将是4级。这是因为有许多其它单位将能够承担冷却,而不会因为损失而产生很大的影响 。虽然有备份,但故障依然被评定为重要的。 UPS系统的功率增加可以被认为是4级。

  第5类:通知

  该类旨在通知数据中心小组的直接上级主管。例如:强风警告,雷雨风暴警告。这类主要用于通知升级到更高级别的情况。该类还包括可能升级到更高级别的设备变化与维护工作,即冷却设备,UPS等。

  对于设备事故、升级,应按照设备既有的相关升级程序执行。对于设备多数据中心,应该有一个24x7的操作中心作为集中资源来协调升级程序。

  二、应急训练

  训练的主要功能是评估运维人员对紧急事件的反应的熟练程度。书面和口头测试可以证明掌握专业知识的能力,但更重要的是,演习能够呈现知识和行动的熟练程度。安全解决危机或紧急情况在很大程度上取决于当时第一反应,并知道身处在哪里。演练可以了解技能、知识缺陷的部分,从而为持续培训提供机会,以便在发生真正紧急情况之前弥补这些缺陷。

  演习是基于对现场环境的了解以及对设备系统运行理解的基础上进行。演习报告文档允许评估和记录个人绩效考核指标之一。也可以将演练作为加强运维人员对对数据中心环境以及对现有设备深入了解的机会。

  演练应是强制性的,并且应针对每个高概率和/或高严重性的预期事件依据紧急操作程序(EOP)进行演练。应在每月对每项设备进行至少一次演练,但在任何情况下都必须满足合同要求与义务。重点应放在前十个EOPs,结合当前的情况进行威胁评估。基于对事件的分级,如复杂性或难度级别(例如“基本”,“中间”和“高级”)来对训练进行分组。

  演练评估必须在是演练开始之前确认演练的目的,并在整个评估过程中关注评估重点。运维人员如若能以安全、及时的方式精准地执行流程取决于以下几点:

  •充分了解设备、系统知识

  •充分了解设备运行操作流程以及系统集成知识。

  熟悉和正确使用各种流程文件(如:EOP,SOP,操作员手册等);当演习作为评估工具时,评估员需对整个过程在不提供任何指导,提示或更正的情况下,进行严格评估、记录数据中心运营团队的绩效。基本上数据中心运维人员都不会一次通过所有评估。

  如果运维人员没有通过评估,则评估者或设备经理有责任制定一份行动培训计划,以解决评估过程中发现的所有缺陷。未通过评估的运维人员需完成指定的补习训练,受训人员可以进行一次或多次训练,经过多次重复训练,直至通过评估考核。在以训练为目进行评估的情况下,教练承担教练和参与者的作用,在训练期间积极地辅助和指导受训者。

  随着训练演练的重复和操作员的学习,教练参与将减少,直到受训者自己做。将多个故障组合到单个演练中可以使它们更具挑战性。这使得对故障优先级,团队合作、事件管理技能能够进行更彻底的测试。例如:将主电源故障与备用应急发电机启动故障放在一起将是一个很好的示例。

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/2017410/n663495083.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片