机房360首页
当前位置:首页 » 治理 » 避免愚蠢的失误给数据中心带来灾难

避免愚蠢的失误给数据中心带来灾难

来源:网界网 作者:机房360转载 更新时间:2010-11-24 14:25:00

摘要:当你不小心将两根网线插入错误的集线器中,一个大学网络将会崩溃。在不合时宜的时间进入数据中心将会导致雇员受伤。当雇员将数据中心恒温器由华氏改成摄氏度后,系统会因为过热而关机。

  当你不小心将两根网线插入错误的集线器中,一个大学网络将会崩溃。在不合时宜的时间进入数据中心将会导致雇员受伤。当雇员将数据中心恒温器由华氏改成摄氏度后,系统会因为过热而关机。
  
  这些都是愚蠢的数据中心失误。在大量数据中心灾难中,只有少数灾难是由技术故障或自然灾害引起的,大部分灾难都是由于人为过失引发的。
  
  据纽约国际正常运行时间协会(UI)调查显示,在当今困扰着数据中心的问题中,大约70%的问题是由人为推失误导致。UI副总裁JulianKudritzki称,他们的团队分析了大约4500起数据中心事故,其中包括400起宕机事件。Kudritzki最近也公布了一套规范以保证数据中心业务可持续运作。
  
  Kudritzki对于调查结果表示:“我并不感到惊讶。虽然操作管理极为脆弱,但是这也是避免出现宕机事故的主要办法。好的消息是管理员能够接受再培训。”
  
  无论是由于疏忽、训练不足、终端用户干扰、资金紧缩,还是简单错误,人为错误是不可避免的。Pund–IT公司分析师CharlesKing称,这段时间以来,由于IT系统日益复杂,数据中心职员工作负担逐渐增加也随之带来许多问题,本该避免的一些小失误甚至也开始出现了。
  
  是用户错误击垮了数据中心吗?看一下这些血淋淋的事故吧。
  
  King说,“劳累过度加上繁琐的高难度工作任何时候都会引发非常糟糕的结果。”随着企业越来越依赖于技术实现业务目标,因此这些错误将变得越来越致命,代价越来越昂贵。
  
  失误的技术员,错误的网线
  
  让我们看一下这个案例。一所大学数据中心交换机发生了过载,原因就是因为IT人员错误地将两个网线插入到了下游端集线器上。学校安全分析师JeramyJayBowers透露称,这一事故四年前发生在印第安纳波利斯的印第安纳大学医学院。
  
  Bowers指出问题产生于不甚完美的网络设计。该事件发生时,Bowers正担任学院的系统工程师。学院的IT部门被分散在两个地点,其中一个机房在医学院大楼,另外一个是在邻近的大学医院内。Bowers说首先这并不是一个理想的配置。
  
  他解释说,该部门使用的是紫色的光纤,光纤通过第一个建筑物的交换机到了第二个地点,又穿过了天花板,通过层层门禁到达了隔壁医院的行政区。由于该网线与位于医院IT房间的12端口交换机相连,因此员工可以轻松地断开医学院的网络,然后通过在墙上的插孔将其连接到医院网络上。
  
  有一天,当Bowers下班后正在慢跑锻炼时,他的iPhone手机响了。电话那头告诉他,医学院服务器的交换机过载导致其所托管的所有服务被拒绝访问。
  
  他解释称:“当有数据包通过时绿色指示灯会不停的闪烁。绿色灯闪亮时间比熄灭时间长表明数据包越来越多。
  
  Bowers很快就开始通过电话排除故障。他能够确定医学院的网络没有变动。这时他想起了紫色的那根网线。他在电话里告诉他的同事拔掉它。拔掉后,交换机恢复至了正常状态。当插回去后,交换机就会再次过载。这证明这个问题在紫色网线的另一端,也就是在大学医院的那栋楼上。
  
  原来,从事某个项目的一名IT人员通常通过卫星定位寻找大学医院的IT房间,这需要额外的连接。他将大学交换机上两根网线切换到了他添加至网络中的一个集成器上,以便他能附加额外设备,从而无意导致了堵塞。
  
  Bowers称:“这样一来就形成了一个回路,数据在这个回路中循环发送。这最终导致医学院大楼内发生数据过载。”
  
  Bowers称,目前大学内的网络和他初到这里工作时一样,所以这种网络设置在他脑子里已经根深蒂固,任何更多好的网络设计在他眼里毫无疑问都会带来问题。不过至少目前IT部门知道今后要避免这种情况发生:临时网线和临时技术员是一个糟糕的搭配。
  
  Bowers称:“我们在此事件发生后并没有正式的从中总结经验教训。我们所做的只是轻描淡写的被告之不要‘再这么做’。”除了这一起事故外,还发生了一起用户无意中在医学院网络中建立了一个流氓无线接入点造成了交换机过载的事故。这两起事故让Bowers彻底明白了一个概念,那就是人为错误导致的问题比技术错误导致的问题要更多。
  
  为节省35美元导致所有数据丢失
  
  数据中心灾难的原因往往直接或间接的与公司节省资金有关。以下这起事故的责任要归咎于节省了35元的备份磁带。
  
  1999年,CharlesBarber在一家保健设备公司(现在该公司已经不复存在了)出任技术支持经理。这家公司主要从事制造独立的、基于服务器的保健设备,这些设备可以连接到跑步机上收集病人的应激测试结果。该公司有一个客户是圣路易斯医疗机构,这家机构里的行政助理兼任IT人员。
  
  Barber称:“那名行政助理漂亮能干,但不是一个受过训练的IT专业人员”
  
  一个星期五晚上,她听到服务器发出了异常声音,这时她意识到硬盘发生了故障。星期六,她购买了一块新硬盘,将其安装好并重新装载了微软的WindowsServer和SQLServer。她举动挽救了数据和文件。Barber为她提供了如何配置服务器的书面材料,这样的事以前也发生过,这名助理也处理的很得当。Barber称:“我让一名现场工程师打电话过来协助解决该问题,但是这名助理却不按要求擅自处理起来。”
  
  她花了星期天和星期一大部分时间来恢复数据和测试系统,之后才允许在周一晚些时候对病人进行应激测试,这个测试看起来进行得很顺利。
  
  但在本周二早上,她打电话给Barber称她从备份磁带上恢复到服务器上的全部数据都消失了。
  
  Barber解释称:“这个人每天都为系统做完整备份。不幸的是,当她重新安装备份时,她看到的是只是星期一的病人测试结果。”
  
  因为她只有一个备份磁带,因此她使用这个磁带备份星期一测试结果时并没有想起来现在这个磁带中包含来自服务器的所有历史数据,在备份过程中历史数据被删除了。
  
  Barber说:“备份磁带的费用只有35美元,只要她的主管授权她买第二份磁带,那么他们三个月的数据就不会失去了。当我意识到发生了什么事后,我大约30秒钟没喘过气来。这个人很能干,但是她的主管却不愿意多花35美元购买一份备份磁带。”

本文地址:http://www.jifang360.com/news/20101124/n786812925.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
更多
推荐图片