机房360首页
当前位置:首页 » 治理 » 避免愚蠢的失误给数据中心带来灾难

避免愚蠢的失误给数据中心带来灾难

来源:网界网 作者:机房360转载 更新时间:2010-11-24 14:25:00

摘要:当你不小心将两根网线插入错误的集线器中,一个大学网络将会崩溃。在不合时宜的时间进入数据中心将会导致雇员受伤。当雇员将数据中心恒温器由华氏改成摄氏度后,系统会因为过热而关机。

  
  视而不见的陷井
  
  有时人们简直是在等待数据中心发生事故,尽管旁观者会很快发现危险,但每天工作在那里的人却对危险视而不见。
  
  EdGould是一位退休的IT专业人员,八十年代中期曾经在芝加哥一家证券公司出任系统程序员。工作一个月后他发现了数据中心一处显而易见的危险。
  
  在这家公司,程序员通常将他们的磁带交给数据中心的管理员,管理员随后会将磁带安装在电脑里。有一天,由于管理员太忙无暇安装EdGould交给他们的磁带,因此EdGould决定自己进行安装。他刚进入数据中心没几步便陷入地板上的一个洞里,那个洞大约有半英尺深,有披萨那么大(该数据中心位于大厦的第七层,被建在架高地板上)。
  
  他回忆称:“我的脚刚好卡在里面。我感到有些疼痛就开始骂人,这时有人过来帮我。”
  
  他问管理员为何在人来人往的地板中间会有个洞。管理员回答说,他们习惯了,这个洞已经存在了两年,他们工作时都会避开这个洞。Gould然后问值班监督员,他告诉Gould不应该进入数据中心,而这里的管理员都知道怎么不落到这个洞里。
  
  在将这个问题逐级汇报给一位副总裁后,这位副总裁告诉他,他是第一个报告在地板有个洞的人,并随后去医院察看了他伤势。最后Gould在急诊室所花费用和被撕裂的裤子得到了补偿,地板也在一两天后被固定好。
  
  他最终发现了该洞是为了容纳一个磁带驱动器系统而切割的,而该系统已经搬迁了。
  
  最令他吃惊的是其他IT人员竟然都对数据中心地板中间的这个危险无动于衷。他称:“我对数据中心管理员们的漠然态度感到吃惊。”
  
  全球普遍存在的误区
  
  如果你需要更多人为造成数据中心浩劫的证据,那么你可以看一下电脑世界网站的SharkTank专栏。那里收集了近些年来IT管理员提供的大量灾难事故。
  
  在美国亚利桑那州的空军基地工程师JohnEyre称,在八十年代中期,基地为整个设施安装了新电缆。新电缆的铺设是为了满足联队微型计算机的安装,每台计算机需要通过同轴电缆连接到终端,供应商们建议用两英寸的渠道把电缆拉到位。
  
  Eyre认为现有渠道较窄,容纳电缆线比较困难,但有人建议项目应尽快开始防止延误工期,Eyre的上司便决定按目前的渠道施工。
  
  Eyre说,当所有的电缆铺设好后,管理层发现每条电缆都带有割伤无法使用。整个安装都必须使用更宽的渠道,因此整个工期被推迟了9个月。
  
  我们从这个事故中可以吸收什么教训呢?Eyre称:“当你急于完成工程以期获得上司青睐时,往往却导致更多的问题发生。”
  
  以下是SharkTank为我们提供的另一起人为错误的案例。
  
  *由于从空调中泄露出来的氟里昂喷到了数据中心中央,并溅到了许多机架服务器上,最终导致整栋大数里的人被疏散(一名疯狂的技术人员曾经试图用手阻止氟里昂继续泄露)。
  
  *由于备份程序没有进行了为期两周的系统测试,同时未能删除五个月的数据,这导致一所对鹌鹑进行语言感知测试的大学实验室被迫临时关闭。
  
  *服务器机房的工作温度常常会达到100华氏度,即便将数据中心的恒温器设定在64华氏度也是如此。问题出现在有人将华氏度调到了摄氏温度,而数值没有改变。结果会怎么样?驱动器融化了。
  
  最大限度地减少数据中心错误
  
  当数据中心发生灾难时,什么是最大的危险----是系统还是配置和维护这些系统的人?
  
  Kudritzki称:“我认为两者都是。如果你有一个运作良好的数据中心,那么你的设备将在最高水平运行。如果你有一个维护欠佳的数据中心,那么你会看到很多问题。”
  
  Kudritzki补充道,拥有运行良好的数据中心的一部分就是关注维护它的工作人员,正是他们运作或是与这些系统进行互动。经理需要时间对有关人员编制、培训、维修和运作做出整体严谨审慎的决定,尽量避免出现灾难,尽力实现最大正常运行时间。
  
  Pund–IT公司的King警告称,管理不应该采取速战速决的办法去解决那么导致数据中心宕机的人为因素。有经验的管理人员需要拥有深思熟虑策略。
  
  他指出:“解决任何这些人为因素都需要系统性的战略和解决方案,但培训课程往往是狭隘的,常以任务为目的的。”
  
  King称:“虽然大多数工作人员知道他们使用的技术具有系统性特点,但是还是有许多疏忽之处。很少有人认识到数据中心本身是一个十分复杂且相互联系的系统。培训课程和练习应该强调全方位的数据中心管理模式才能帮助解决这一问题。”
  
  减少人为错误的办法
  
  在2010年7月1日,UI公布了一套新规范以帮助提高数据中心的正常运行时间。准则中列举出了一些操作问题,包括人的因素。
  
  名为《数据中心机房Tier标准:可持续性运作》规范阐述了数据中心管理团队的行为与风险是如何影响长期性能的。
  
  UI副总裁Kudritzki指出,如果管理不恰当,即使是最先进的数据中心也会出现宕机。
  
  规范认为在管理当中有四个方面需要注意,以力争让数据中心取得最长正常运行时间。这其中包括人员,不仅仅是人手充足,人员还需要充分具备相关资格。比如说,一个高级(Tier4)数据中心需要配备两名全天二十四小时现场值班的管理人员。
  
  对于各方面的维护,管理部门还必须做出正确的决策,其中包括预防性维修、日常维护和与生命周期有关的维护任务。
  
  规范中称,培训也极为重要。因为能够对突发事情做出及时反应的雇员能够帮助避免宕机。规范中推荐现场培训、在职培训、厂商培训和正规资格认证。
  
  最后就是数据中心的整合规划、协调和管理。规范中推荐管理员制订数据中心机房规定、资金管理规定,充分利用空间、能源和冷却管理工具,力争使机房达到ITIL(信息技术基础设施库)标准。

     责任编辑:handsome

本文地址:http://www.jifang360.com/news/20101124/n786812925.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
更多
推荐图片