机房360首页
当前位置:首页 » 新闻列表 » 一字之错导致亚马逊 AWS网站离线

一字之错导致亚马逊 AWS网站离线

来源:ZD至顶网软件频道 作者:hang编辑 更新时间:2017/3/3 15:36:53

摘要:亚马逊网络服务(AWS)周四报道,AWS出了几个小时状况导致周二几个主要网站及另外几个网站离线,其原因是一字之错。

  亚马逊网络服务(AWS)周四报道,AWS出了几个小时状况导致周二几个主要网站及另外几个网站离线,其原因是一字之错。

  云基础架构提供商AWS发布了以下的解释:

  Amazon Simple Storage Service(S3)团队当时在调试系统纠正一个导致S3计费系统进展比预期更慢的问题。太平洋标准时间早上9:37分( 北京时间次日凌晨2:37),一名S3团队授权成员根据既定步骤执行了一个命令,目的是从S3计费过程的S3子系统里移除少量的服务器。不幸的是,其中的一个命令输入错误,导致多个原本不应该被移除的服务器被移除。

  粗心大意的错误导致对美国东部区全部S3对象至为关键的两个子系统离线,美国东部区内有大量的数据中心,是最早期的亚马逊区。两个系统都需要从头重新启动。亚马逊指,此过程以及运行必要的安全检查“花了比预期更长的时间”。

  两个系统重新启动时,S3无法接受服务请求。该地区其他依靠S3存储的AWS服务也受到影响,其中包括S3控制台、亚马逊弹性计算云(EC2)新实例的启动、亚马逊弹性块存储(EBS)卷(其数据需要从S3快照里获取)和AWS Lambda。

  亚马逊称,索引子系统在太平洋时间下午1:18完全恢复,而位置子系统于下午 1:54恢复。至此,S3操作恢复正常。

  AWS称鉴于此次事件的发生正在引入“几个改变”,包括防止不正确输入的步骤,以避免同类问题的发生。

  AWS博客里做了这样的解释,“尽管在这种情况下移除一部分系统功能是一个重要的操作手法,但其工具软件不应该这么快地将许多系统功能移除掉。我们已经对该工具软件进行了修改,使其更慢地移除系统功能,并添加了安全措施,以防止在移除系统功能时导致任何子系统的功能低于最低水平。”

  AWS采取的其他主要措施包括:他们开始将索引子系统划分成更小的小区。AWS还改了AWS管理控制台服务健康仪表板,以使其可以在多个AWS区域运行,颇具讽刺意味的是,周二的一字之错导致仪表板不能用,AWS只得靠推特(Twitter)就有关事宜通知客户。


责任编辑:hang

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/201733/n881593967.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片