摘要:尽管IT管理人员很讨厌系统停机,但残酷的现实告诉我们,即便是最好的计划和安排都不能为每一种情况做好准备,甚至连最简单的疏忽都可以像滚雪球一样成为严重的事件,并且修复起来困难又昂贵。下面我们将讨论一下关于数据中心停机的根本原因,以及对员工压力和士气产生的影响和所涉及的费用,更重要的是IT人员可以为减轻影响采取何种措施。 |
正常运行协会的内容出版物负责人Matt Stansberry:良好的规划可避免宕机
我借助正常运行协会副会长Rick Schuknecht来回答这些问题。Schuknecht在正常运行时间协会的精英数据中心终端用户网络从事工作。他表示,73%的数据中心宕机事故是由人为错误造成的。人为错误包括训练不佳、维护实践不良和操作管理较差。他说,停机可能会令人非常紧张,还会破坏员工的士气,因为工作与补偿往往以企业的有效目标为基础。
Schuknecht还表示,如果一个公司有一个良好并且适当的记录,他们就可以判断停机故障的根本原因,并确定在短期和长期内所要采取的措施。但是,只有当你建立了适当的有效的记录才可能这样。
还有一些被忽视的宕机后果。例如,金融业会有监管处罚。宕机也可能损害公司的竞争力,如在行业内失去商业信誉或者失去客户群。你愿意把你的钱放在哪里呢?放在无宕机的银行里,还是放在反复宕机的银行里?大多数金融公司有适当的方法来保护或恢复数据,避免失去交易连续性可能会导致的严重问题。
数据中心工作人员可以采用什么措施来避免和缓和系统宕机呢?Schuknecht建议建立良好的设施,计算出每件设备的维修计划,建立员工培训计划,介绍员工该如何及何时回应宕机事件,提供足够的资金用于营运以确保一切正常运作,还要建立一个良好的治理计划,其中站点基础设施要依照生产商规定运行。
数据中心经理ChuckGoolsbee:硬件故障导致宕机
最常看到的两个因素是不可恢复的部分故障和操作设备差错。就不可恢复的部分故障而言,通常的罪魁祸首是基于网络协议和不会导致彻底故障的网络硬件问题。网络硬件和协议正如所料在彻底故障的情况下通常是工作的,如线卡坏掉,失去电力到失去冗余等。但是,真正有问题的是在发生故障过程中,部件如何继续工作。虽然网络硬件常常发生这种问题,但是在电气开关设备和不间断电源设备造成的停机中也有类似的故障,比如在三相配电系统中损坏了一个单相。
相比之下,操作设备差错几乎总是可追溯到缺乏一个特定程序的全面清单,或者有人越轨。所以为了大家,你要有一个流程,并坚持下去!
停机会产生有形和无形的成本。它可能昂贵到超出了财政负担,甚至造成信誉度和信任度的损失。
减轻系统宕机影响的最好办法就是沟通。建立一个沟通策略,并加以利用。培养客户采纳特殊办法。确保有一个带外数据备份。如果沟通得当,你的信誉和信任可能更加完美。