机房360首页
当前位置:首页 » 数据中心资讯 » Facebook公司采用开源工具检测数据中心网络故障

Facebook公司采用开源工具检测数据中心网络故障

来源:UPS应用 作者:Harris编辑 更新时间:2016-2-22 7:10:31

摘要:几年前,Facebook关闭了一个数据中心,以测试其应用的灵活性。该公司工程主管杰瑞•帕瑞科斯表示这个测试顺利。该数据中心的关闭测试没有干扰客户对Facebook网站的访问。

   几年前,Facebook关闭了一个数据中心,以测试其应用的灵活性。该公司工程主管杰瑞•帕瑞科斯表示这个测试顺利。该数据中心的关闭测试没有干扰客户对Facebook网站的访问。
  
  Facebook和其它网络规模的数据中心运营商投资数亿美元甚至数十亿美元建立全球性的互联网服务,将重点转向数据中心的弹性冗余和自动化的基础设施–电源和冷却系统–软件驱动的故障。一个由许多服务器组成的全球分布式系统,可以很容易地失去某些服务器,而不会对应用程序的性能有任何重大的影响。
  
  这并不是说数据中心运营商已经放弃了备份发电机,UPS系统,自动转换开关。人们仍然可以在Facebook数据中心可以看到所有这些东西,只是这些设施不再是最后单一的防线。
  
  如今,Facebook公司开放一些软件工具的源码,其内置的软件工具可以帮助工程师在几秒钟内检测到电力中断的位置,并迅速隔离故障,避免更大范围的问题。
  
  该工具是一个名为NetNORAD系统,可以不断监控整个Facebook的数据中心基础设施的数据包丢失率和延迟。并使用数据分析,可以检测到异常模式和触发警报,通常发生在30秒内的故障。
  
  “我们的规模意味着设备故障每天都有可能发生而且确实在发生,我们努力阻止那些必然事件对任何使用我们的服务的客户的影响。”Facebook公司网络工程师彼得•切赫拉普科霍尔在一篇博客文章中写道。“最终的目标是检测网络中断,并在几秒钟内自动地减少网络干扰。相反,采用人工调查可能需要以分钟计算,甚至是小时。”
  
  Facebook公司的NetNORAD组件是开源的响应者,系统采用一组服务器不断监测Facebook公司数据中心的所有服务器,基于他们接收响应数据包丢失和延迟的数据,并采用自动确定故障确切位置的工具fbtracert。
  
  编辑:Harris

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/2016222/n121678384.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片