机房360首页
当前位置:首页 » 数据中心资讯 » 解析:数据中心系统宕机原因分析

解析:数据中心系统宕机原因分析

来源:机房360 作者:Lily编辑 更新时间:2011-6-26 16:03:22

摘要:尽管IT管理人员很讨厌系统停机,但残酷的现实告诉我们,即便是最好的计划和安排都不能为每一种情况做好准备,甚至连最简单的疏忽都可以像滚雪球一样成为严重的事件,并且修复起来困难又昂贵。下面我们将讨论一下关于数据中心停机的根本原因,以及对员工压力和士气产生的影响和所涉及的费用,更重要的是IT人员可以为减轻影响采取何种措施。

  Shen Milsom Wilke公司资本和数据中心设计专家罗伯特?麦克法兰:人为错误是导致宕机的根本因素
  
  据研究已得出了结论,高达75%的宕机事故是因为一些人为错误引起的。但是这些人为错误背后又是什么呢?以前,我们很简单地归结为是由于“缺乏培训”,但即便是训练有素的人当他们在忙碌、疲惫或没有真正思考时,或只是认为他们可以走捷径侥幸成功的时候,就仍会犯错误。但实际上可能更倾向于“缺乏规划”。一直以来,很多事情(特别是数据中心)之所以让人们犯错,仅仅是因为他们的布局不合理,或者是不良的标记(如果完全标记了),注定要使一些可怜人陷入一场错误之中,以致于一直所作的工作被理所当然地摆在首位,而原本不该是这样的。
  
  例如,现在几乎所有的服务器都是以“双线”的形式连接到两个不同的电源中心的两个不同的电源插座。根据他们的习惯,电工可能把一个插座连接到配电盘A中的断路器7,另外一个插座连接到配电盘B中的断路器16。他们有可能把电路标签放在机柜内的插座上,这可能导致管理员看不见;还有可能把不符合机柜的编号的标识放在配电盘时间表上。这都很容易导致会错误关闭不同机柜里的电路,或者未能关闭计划的机柜电源。
  
  系统宕机会严重影响员工的士气,因为IT行业向来恐惧故障的发生。小问题就足够糟糕了,而大问题则会耗尽员工的所有精力。IT业已成为新的“公用事业”。人们期望数据系统像电力、燃气和水那样,只是安装在那里而不会发生故障,如果发生故障也能迅速恢复。IT人员非常清楚,一旦故障导致影响企业声誉或危及生命,其将付出极大的代价。日常的压力能促使他们避免宕机。
  
  往往最容易被忽略的系统宕机成本是企业形象。不同的企业,损失可能不同。但对有些公司来说,他们的形象受损可能会超出货币估值。另一种系统宕机的损失则是客户流失。假设一家依赖中央数据中心运输系统的汽车制造商突然因宕机事件而被中断业务。一家依靠准时交货的汽车公司一旦遇到了这种交货延迟,它就会转到他们的第二货源。而这个客户可能永远不会回来了。
  
  宕机是不可避免的。IT是一件有压力的工作。总是又有一个服务器要安装,或者总有其他应用程序要推出,而且很少有足够的时间或资源来仔细地或者彻底地制作规范。有时必须要勇敢地面对管理层,并说,“这个时间表不现实,而且它在今后可能会引发灾难性后果。”必须有一个规章制度,并坚绝要求有适当的规划和程序,其中包括上面提到的所有事情。人为操作是引起故障的主要因素。我们不能把一个IT人员推向错误之后,当宕机发生时,还对其行为感到惊讶。

本文地址:http://www.jifang360.com/news/2011626/n214023682.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
更多
推荐图片