机房360首页
当前位置:首页 » 机房管理 » 从一桩“连环疑案”看机房管理的重要性

从一桩“连环疑案”看机房管理的重要性

来源:《现代数据中心》 作者:顾觉慧 更新时间:2009-10-21 16:25:36

摘要:我们又规定了严格控制打开主机房地板和进出机房随手关门以及每周用吸尘器对主机房吸灰一次的制度,随着机房制度的逐步完善和管理规则的到位,从五月份至今的几乎整个夏季本应是故障高发季节,但我们的主机房却是导故障发生。

  作为一个长期订阅本刊的老读者,今天我来谈谈自己的机房管理心得。
  
  我们主机房的东北角区域在以前的一段时间内曾陆续发生了2个服务器电源,3个KVM显示屏等设备部件损坏的事故,该区域成了我机房有史以来发生设备故障设多的区域,该事件也成了我机房的一大“疑案”,有怀疑梅兰日兰UPS质量问题的,有怀疑供配电线路问题的,有怀疑零地电压问题的,也有怀疑精密空调问题的,甚至还有怀疑机房本身场地有问题的,众说纷纭,一时沸沸扬扬,机房东北角几乎成了21世纪我们整个机房的“百慕大”,为了揭开这一看似扑朔迷离的“连环疑案”我们与机房系统值班人员进行了周密的分析排查。
  
  第一次发现有电池损坏是2007年8月4日,后来在8月上、中旬的十多天里又陆续又发现有几个KVM显示器点不亮了,经过对当时记录历史资料的详细分析,我们主机房在2007年8月曾经发生了一起空调事故,事故的经过是这样的,2007年8月2日、3日是苏州有史以来气温最高的日子之一,3日晚,我结束了对各县支行的检查返苏,途中接机房值班电话,说机房东北部区域温度很高,待我速返机房时发现温度已达30度,经查,最里面(东北角)一台空调报“压缩机故障”(报警起始时间为8月2日13点25分)紧邻的一台报“高压停机”(报警时间为8月3日14点08分),机房东北角温湿度监控传感器显示,到8月3日14点30分之后温度逐渐升高,很显然,是第一台空调故障发生25小时后,紧邻的第二台空调因热负荷过大而高压报警停机,而高压报智的空调如果及时发现则只要人工复位一下即可恢复,过撼的是,在20多个小时中机房里竟然无人发现!从而使温度继续升高,导致该区域内的多台机器设备陆续出现故障,我到机房后立即复位了一台,机房温度逐渐下降约2个多小时后恢夏到了正常值,另一台则由上海梅兰日兰公司于第二天予以修复。
  
  或许有人要问:既然温度升高引起设备故障,那为什么它不是一下子出现,而会在以后的十多天里陆续发生呢,其实原因也不算太复杂,l、根据半导体电路的工作原理,其损坏形式有两种:A、过大电流引起的突然烧毁,B、受到大电流影响后并不立即损坏,而是经过一段时间累积后才击穿,也就是物理学上说的“雪崩击穿”,而象我们的经过高温引起大电流影响的应属于后一种;还有一个原因是机房内的某些设备并不是每天都有人在用,有的要到有人使用时才会被发现。
  
  通过对这桩“疑案”的分析使我们得到了一个启示:所谓“疑案”其实并不“疑”,只要我们牢牢把握“科学发展观”这一唯物主义武器,认真分析,仔细研究•真相总会浮出水面,这桩事情的发生,从表面看是基础设施(精密空调)故障所导致,但基础设施的故障又是什么原因导致的呢?假如我们能够在平常加强管理,严格执行机房值班制度,发现故障即时报告,会有这么多设备过到损坏吗?别说一小时对机房检查一次,就是一天能够检查上一次,那该次的事故也将完全避免。
  
  而我们的有些同志,碰到问题不善于用科学的方法进行分析,不是静下心来,从自身的工作入手查找原因,多多听取不同意见,而是凭感觉、靠想象,自觉或不自觉地作出一些不科学、不客观的、不负责任的判断来,甚至简单化地往机房初期设计建设上一推了之,这样做看起来省事方便,但产生的后果却是极其糟糕的,它使我们不仅会因找不到真正的原因而永远解决不了问题,而且还会因忽略了一些关键的因素而导致机房故障进一步蔓延,尤其是它会使工作中敷衍了事、不负责任的风气越演越烈。对这种工作管理和方法上存在的问题我们切不可等闲视之。

本文地址:http://www.jifang360.com/news/20091021/n91212700.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
更多
推荐图片