机房360首页
当前位置:首页 » 数据中心 » 吸取桑迪飓风教训,数据中心做好充分准备

吸取桑迪飓风教训,数据中心做好充分准备

来源:机房360 作者:litao984lt编译 更新时间:2013/11/29 9:31:23

摘要:一年前,桑迪飓风袭击了纽约市和整个美国东海岸。当曼哈顿的许多居民都被疏散到安全地带,以躲避风暴时,两位PEER1 Hosting数据中心的员工Mike Mazzei和Jeff Burns仍然坚守在曼哈顿下城以确保数据中心设施的安全。

  我们真的没有想到飓风会对数据中心产生如此严重的影响。最糟糕的是,我们当时仅仅认为只是设施可能会断电,但后来,Jeff和Mike甚至需要切换到备用发电机。

  当风暴潮在2012年10月29日晚上袭来时,地下室和数据中心一楼迅速淹没。所幸服务器机房被安置在二楼,所以服务器安全躲过了洪水,但数据中心建筑的主要电源传入实用开关和油箱均位于地下室,他们完全被洪水淹没。在十八楼发电机集箱中仅有有限的燃油,以供给十七楼的备用发电机,而Mike 和Jeff知道,那也仅仅只能维持几个小时而已。后来我们很快就意识到,桑迪飓风比我们预想的还要更糟糕,我们很快就制定出了一套新计划来保持数据中心的运行。

  我们最初的反应是尽快建立一个控制关闭,但Mike表示希望能有一个小时的时间来找到一个解决方案,以防止任何客户受到风暴影响。当我再次跟他联系时,他告诉我,PEER 1 Hosting的其他同事,甚至还有一些客户,已经到达数据中心提供帮助了。他们一起携带着燃料爬到十七楼的一个临时燃料桶。我不得不承认,他们的足智多谋给我留下了很深的印象。那并非是一个完美的解决方案,我们之前也没有经历过像那样的情况,但其确实奏效了,这样,就能够保证我们的服务器继续维持数天的正常运行。最终,我们可以安装一个临时的燃油软管以供给给十七楼的发电机。当风暴最终退去,PEER 1 Hosting数据中心是曼哈顿下城少数几个未断电的电源之一。

  桑迪飓风不是我们第一次经历飓风,而且我们在美国的一些其他数据中心也已经经历过许多其他的自然灾害。但此次桑迪飓风的确是一次非常不同的经验,其从很多方面为我们提出了独特的挑战了。例如,我们从中学会了如何建立一个有效的燃油链,而我们的客户也了解到我们将始终坚守我们的使命。我们还学会了如何避免再次出现类似的局面,以及数据中心应对风暴的一些最佳实践方案。

  这其中,我们所学会的最重要的教训之一是:有些事情,数据中心管理人员根本无法计划。例如,尽管我已经掌握了再也不要把发电机或油箱安置在数据中心地下室这一理念,但这其实是不可行的,因为这其实涉及到较高楼层结构的支持问题。这样的话,我们还将为这些基础设施在出租率较高的楼层支付更多的租金,即使这些发电机和燃料罐很少使用。

  考虑到这一点,数据中心管理人员其实可以做很多工作以便让他们的相关设施为大风暴的袭击做好准备。如下,是我为数据中心管理人员们提示的在飓风季节最为重要的几点应对措施,甚至适用于任何其他的自然灾害:

  1、风暴来临之前,在数据中心安排足够的工作人员。我们非常幸运,在桑迪飓风袭击数据中心后的第二天早晨,有大量曼哈顿本地的客户前来帮助我们进行灾后重建工作。如果没有所有这些额外的手中,我们将不得不对数据中心实施控制关机。如果你的数据中心不能在暴风雨前安排充足的人手,可以考虑如何在需要的情况下获得外部支援。例如,您可以在您的数据中心附近设立应急小组。这样,如果发生中断事故、火灾、地震或其他灾害时,你就已经有一个团队能够尽快赶来提供帮助了。

  2、不要等到数据中心需要时准备发电机或燃料软管,现在就尽快在数据中心现场配备好这些设备。此外,如果数据中心团队需要数据中心待上较长的一段时间,考虑你可能还需要的其他物资。尤其是针对风暴做好准备工作,备足手电筒、睡袋、水和非易腐食品。

  3、确保在暴风雨发生时,以及灾后能随时拿出维修合同、燃料供应和其他服务合同。这些合同将确保你数据中心有充足的物资和燃料供应,进而帮助你尽快恢复基础设施的运行。没有了合同,供应商可能要到最后才为您的数据中心供应物资,最后甚至可能会导致数据中心的关闭。

  4、避免一切都按计划行事。你可以提前制定计划,但其不可能完全对任何自然灾害对能准备好,并且在灾难发生时,帮助您应对自如。我们的政策是在暴风雨前定期测试数据中心的关键基础设施和现场的其他额外供应物资,但单纯靠这些预防措施来应对桑迪飓风是不够的。在风暴期间,你也可能需要在操作上随机应变的进行相关适应灾难程序的调整。

  5、对于向PEER 1 Hosting这样的服务提供商同行,充分为您的客户着想也是非常重要的,想想您可以帮助他们为一次潜在的自然灾害做好准备。客户的风险主要集中在其关键基础设施运行失败,所以服务供应商可以帮助他们建立一套灾难恢复解决方案。另一种选择是使用公共云环境,但某个设施停机发生故障,客户的应用程序将转移到另一家数据中心。请务必记住如果确实发生了某些故障,一定要告知客户。例如,如果风暴来袭时,让客户参与进来,让他们了解您数据中心的受损状况,尤其是,如果你认为你的数据中心可能会中断运行甚至需要关闭的时候。我们发现,最初通过电子邮件发送给客户相关信息,然后在我们的网站频繁的更新数据中心的状态是最好的办法。

  回首飓风桑迪,这真是一个非常惨痛的经历,我希望永远不会再次经历了。但我也相信,带着我们所总结的教训,已经使我们成长为一个强大的,更有能力的公司,我们为我们完成了客户交付的任务感到非常自豪。

  本文作者Ryan Murphey是PEER 1 Hosting数据中心的运营副总裁。拥有超过13年的数据中心管理、客户服务管理、托管和网络行业经验,目前,Murphey 主管着PEER 1 Hosting在美国和加拿大的19家数据中心的设计、预算和容量规划工作。

  责任编辑:余芯

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/20131129/n018254412.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
转载声明:凡注明来源的文章其内容和图片均为网上转载,非商业用途,如有侵权请告知,会删除。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片