2018年终盘点之云宕机事故主流云厂商纷纷“中弹”_机房360

摘要：当无数人同时登录一家购物网站，引发的后果可能是“宕机”，啥东西也买不了。如果大的“宕机”事件发生，那影响的就不仅仅是一家购物网站，或许是很多网站或应用，受影响的人高达几百万甚至上千万人。

　　当无数人同时登录一家购物网站，引发的后果可能是“宕机”，啥东西也买不了。如果大的“宕机”事件发生，那影响的就不仅仅是一家购物网站，或许是很多网站或应用，受影响的人高达几百万甚至上千万人。

　　2018年，云计算市场的几大主流云服务提供商均发生过“宕机事件”，包括谷歌云、AWS、微软Azure、阿里云、腾讯云等。

　　1. 谷歌云自动化失效致宕机

　　时间：1月18日

　　宕机时间：93分钟

　　事故详情：1月18日，谷歌云自动化机制失效，导致其us-central1 和 europe-west3 两大可用区中的计算引擎停运 93 分钟。谷歌称，“网络编程失效”导致Autoscaler(自动扩展器)服务无法正常运行。

　　补救措施：工程团队手动切换到替换任务，以恢复数据持久层正常运行。

　　2. 谷歌云一数据库故障

　　时间：2月15日

　　宕机时间：1个小时

　　事故详情：2月15日，谷歌应用开发平台出现数据库故障，给不少平台客户带来麻烦。在中午12时左右，谷歌云的一款非关系型数据库出现问题，导致谷歌PaaS服务Google App Engine用户经历长达一小时的错误与延迟情况。很多游戏玩家在此次事故中遭受严重波及，因为不少热门在线游戏使用了谷歌服务，比如Pokemon Go。

　　3. AWS 宕机致部分 Alexa 失声

　　时间：3月2日

　　宕机时间：数小时

　　事故详情：3 月 2 日凌晨，依赖 AWS 服务的部分 Alexa 开始出现失声问题，该智能音箱的红色指示灯不停闪烁表明服务出现中断，Alexa 也一直发出系统内置道歉声。随后几小时内，Alexa 又接到了成千上万封投诉。据了解，Alexa 这一故障源于亚马逊 AWS 的网络服务出现问题，其他依赖 AWS 作为骨干网的应用在当天也受到了影响，包括软件开发公司 Atlassian，云通讯公司 Twilio 等。

　　补救措施：亚马逊 AWS 的在线支持团队对此进行了修复

　　4. 微软Office 365宕机致邮件出现问题

　　时间：4月6日

　　宕机时间：不清

　　事故详情：4月6日，大量欧洲、亚洲和美国的微软客户，其电子邮件账户出现问题。其中，英国受影响最大，因Office 365的宕机，许多企业无法发送邮件与登录Skype。有些用户报告称，它们只能使用单点登录来使用那些办公生产力套件。

　　5. AWS 北弗吉尼亚地区数据中心出现硬件问题

　　时间：5 月 31 日

　　宕机时间：30分钟左右

　　事故详情：5 月 31 日，因北弗吉尼亚地区的数据中心出现硬件故障，AWS 再次出现连接问题。在此事故中，AWS 的核心 EC2 服务，Workspaces 虚拟桌面服务以及 Redshift 数据仓库服务均受到影响。

　　补救措施：人为修复

　　6. 微软 Azure 爱尔兰数据中心宕机

　　时间：6月17日

　　宕机时间：5小时以上

　　事故详情：6 月 17 日至 18 日，因爱尔兰数据中心的恒温系统出现问题，微软 Azure 被高温影响导致存储和网络中断。

　　7. 阿里云故障

　　时间：6月27日

　　宕机时间：30分钟，恢复时间花费1小时左右

　　事故详情：6 月 27 日 16:21 左右，阿里云出现重大技术故障，16:50 分开始陆续恢复，官方给出的故障时间为 30 分钟左右，恢复时间大概花费一小时。经过技术复盘，阿里给出的故障原因为工程师团队上线自动化运维新功能时，执行了一项变更验证操作，该操作在测试环境中未发生问题，上线后触发未知 bug。

　　补救措施：人工介入，定位并解决问题

　　8. AWS宕机致使亚马逊网站瘫痪

　　时间：7月16日

　　宕机时间：持续近6小时

　　事故详情：7月16日是亚马逊会员日，即Amazon Prime Day。但是，在第四届亚马逊会员日开幕的几分钟后，亚马逊网站及 App 就同时发生严重宕机，不光电子商务业务受损，亚马逊的其他产品和服务都受到了不同程度的影响。亚马逊对此给出的解释是 AWS 管理控制台出现全球性问题。

　　9. 谷歌云宕机

　　时间：7月17日

　　宕机时间：不清

　　事故详情：7月17日下午，谷歌云宕机致使Spotify和Snapchat等热门应用服务中断。谷歌称，宕机影响谷歌应用开发平台Google App Engine、Cloud Networking和Stackdriver，后者旨在为公有云用户提供绩效与数据诊断服务。之后，谷歌发布一项更新，称该事件导致的502问题在下午1:05得到解决。

　　10. 腾讯云云硬盘故障

　　时间：7月20日

　　事故详情：8月5日，北京清博数控科技有限公司(以下简称“前沿数控”)在官方微博发布了一篇题为《腾讯云给一家创业公司带来的灾难》的博文，文中表明，2018 年 7 月 20 日，腾讯云云硬盘发生故障(腾讯云后期给出的事故原因说明)，导致该公司存放的数据全部丢失，并且不能恢复，这是该创业公司近千万元级的平台数据，包括经过长期推广导流积累起来的精准注册用户以及内容数据。

　　补救措施：腾讯云表示，监控到异常后第一时间向用户告知了故障状态，并立即组织文件系统专家并联合厂商技术专家尝试修复数据。但经过多方努力，最终仍有部分数据完整性校验失败。

　　11. 腾讯云宕机

　　时间：7月24日

　　宕机时间：不清，恢复时间30-40分钟

　　事故详情：7 月 24 日，用户登录腾讯云时反复出现超时、退出等情况，即便更换运营商，结果也一样。随后，腾讯云发布通知称初步确定是运营商光缆中断，运营商已经找到断点，正在连线中，主要受影响的为广州区域部分用户。

　　12. 微软云 Azure 数据中心遭雷劈宕机

　　时间：9月4日

　　宕机时间：超过24小时

　　事故详情：9月4日，美国中南部地区发生雷雨天气，而位于附近的微软中南区数据中心被雷击中，导致数据中心的电源电压增加，影响了冷却系统，进而致使多个Azure 服务出现连接问题，客户难以访问储存在中南区数据中心的数据。

　　据悉，此次受影响范围较广，包括了Office365、Active Directory、Visual Studio Online、Visual Studio Team Services 等，这些服务已下线了数个小时之久。

　　补救措施：9 月 5 日上午，微软工程师已恢复数据中心的电力和大多数网络设备，其他服务也在陆续恢复中。

　　13. 谷歌公有云中的Kubernetes容器服务宕机

　　时间：11月9日

　　宕机时间：近19小时

　　事故详情：11 月 9 日，谷歌公有云上提供的 Kubernetes 服务(GKE)节点池建置功能出现异常，维运人员无法透过 Cloud Console UI 建立新节点。

　　补救措施：谷歌派工程团队调查故障原因，并开始着手维修。谷歌表示，受影响的企业用户可以先改为使用 GCP 内建的 gcloud command，建置新 Kubernetes 节点。

　　14. Facebook出现宕机

　　时间：11月12日和20日

　　宕机时间：数小时

　　事故详情：11月12日和20日，Facebook发生两次宕机事件，影响大量企业协同产品用户。据悉，11月12日，包括Worksplace协同工具在内的Facebook服务出现宕机，Facebook收到数千起投诉。

　　11月20日，Facebook又出现宕机事件，有3/4的用户报告从上午8点到下午早些时候，它们遇到全面宕机或登录困难问题。

　　15. 微软Azure和Office 365出现宕机无法登录

　　时间：11月18日

　　宕机时间：不清

　　事故详情：据微软披露，11月18日，一些用户无法登录Azure和Office 365服务。这次宕机影响了许多需要身份验证而登录云服务的用户，波及范围很广，包括整个欧洲、亚太和美洲地区。

　　从上面发生的15起宕机事故，我们看到云厂商的可靠性极其关键。无论宕机事故大小，主流云服务提供商一旦出现宕机，将产生很大影响，波及许多云上企业，也会让云服务提供商遭遇信任危机。

　　责任编辑：DJ编辑

JIFANG360.com - 机房360

2018年终盘点之云宕机事故 主流云厂商纷纷“中弹”

2018年终盘点之云宕机事故主流云厂商纷纷“中弹”