机房360首页
当前位置:首页 » 数据中心资讯 » 解析:数据中心系统宕机原因分析

解析:数据中心系统宕机原因分析

来源:机房360 作者:Lily编辑 更新时间:2011-6-26 16:03:22

摘要:尽管IT管理人员很讨厌系统停机,但残酷的现实告诉我们,即便是最好的计划和安排都不能为每一种情况做好准备,甚至连最简单的疏忽都可以像滚雪球一样成为严重的事件,并且修复起来困难又昂贵。下面我们将讨论一下关于数据中心停机的根本原因,以及对员工压力和士气产生的影响和所涉及的费用,更重要的是IT人员可以为减轻影响采取何种措施。

  
  WorldWideFittings公司的技术总监BillKleyman:灾难恢复很重要
  
  业务中断和宕机是IT管理人员(即使是处在较大的公司环境里)不经常思考所造成的事故类型。但是,当宕机事故发生时,它们变成了突发事件。避免停机事故的第一步就是规划。如果发生宕机,而没有为此规划,可以想象得到一些长期的负面的结果。当需要灾难恢复(DR)解决方案时,良好的培训和应急准备将创造一个更加稳定的环境。规划、测试和灾难恢复计划的真实执行将有助于任何环境下都做好应急准备。对于业务中断没有什么秘诀。冗余和备用措施越多,紧急停机事故能处理得越好。
  
  一个稳定的环境可以为工作人员和数据创造一个稳定的工作流程。IT工程师最不想做的事情就是接连收到百封电子邮件或电话说“网络中断。”这会造成不必要的压力,很可能导致在恢复过程中造成更多的错误。规划好一切几乎是不可能的,但做好尽可能的准备工作将有助于减少出错。如果停机故障一旦发生,要保持冷静且解决尽快当下问题。如果有机会,记录好所有的事情。要注意故障的特征,什么坏了,需要修理什么,应如何修理和最终结果。然后,利用这个记录,贯彻到现有的灾难恢复计划中。紧急情况可能会妨碍正常的记录,但要花时间从中学习。在IT世界里,任何事情都有可能发生,有时还会发生多次。
  
  毫无准备或系统没有冗余操作能力可能最终会使公司的损失极高。这意味着什么呢?在最初购买时,IT管理人员选择和购买了较便宜的设备,没有多余的风扇、电源设备、CPU等。这第一步就是一个错误,它反过来对整个环境产生不利影响。比方说,例如,一次功率骤增毁坏了单电源设备的服务器,从而损坏了内部元件。现在整个环境出现问题,机器需要更换。另一方面,我们可以让同样的IT管理人员去花费一些额外的钱来购买更好的电源和配电设备,以帮助保护计算机。在这种情况下,一个简单的电源交换将保证很少或没有停机故障。当停机或业务中断发生时,无形的因素也产生了作用。没有人想要焦虑,因为环境有问题,唯一可行的解决方案就是打发日子。用一点计划来缓解这种压力。你也不想对执行委员会的IT部门失去信心。
  
  如果一个环境需要99%的时间,那么为它做一下规划吧。规划得越多,基础设施会把停机处理的越好。为停机做好准备,下至最简单的元素。这意味着数据中心应该有备用发电机、休眠虚拟机或热站准备在需要的时候随时出现。做好多点数据恢复(云、本地、存储区域网络和远程),并且定期测试这些解决方案。每个环境应该有一定的灾难恢复解决方案。冗余计划越多,就会把紧急情况处理的越好。问些简单的问题。我有多余的互联网服务提供商吗?他们是不同的电路吗?我有备用电源计划吗?我的电池都就绪了吗?我的虚拟环境能处理物理主机故障吗?因为每个环境都是独特的,为停机做的计划与基础设施的要求有关。工作人员应当经过培训来多多了解他们的电源和备份系统。即使是最初级的工程师,准备的越多,整个网络环境会更好地处理停机或中断事故。
  
  责任编辑:Lily

本文地址:http://www.jifang360.com/news/2011626/n214023682.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
更多
推荐图片