由亚马逊宕机引发的思考：“云灾备”来得是不是时候_机房360

摘要：亚马逊再次发生停服事故，前后持续约20分钟。这次事故不仅导致亚马逊电子商务主网站无法访问，而且也波及到了亚马逊的其他服务，其中就包括亚马逊云计算服务，以及一些数字内容服务等。

　　又宕机了!

　　美国当地时间3月10日，亚马逊再次发生停服事故，前后持续约20分钟。这次事故不仅导致亚马逊电子商务主网站无法访问，而且也波及到了亚马逊的其他服务，其中就包括亚马逊云计算服务，以及一些数字内容服务等。

　　云计算在给个人和企业用户带来诸多便利的同时，近几年来频繁发生的各种云事故也增加了人们对云的担心。最近一段时间，云灾备这个新概念在国内逐渐兴起，将备份和容灾放到云中渐成趋势。亚马逊这次停服事故让记者联想到，如果云服务商三天两头出问题，那么用户还敢放心地采纳云灾备吗?

　　宕机，见怪不怪

　　既然谈到宕机，那么不妨先回顾一下过去两年全球范围内发生的曾引起广泛关注的云事故。

　　2014年11月2日下午，腾讯云服务器出现了6分钟的访问故障。腾讯云网站响应速度慢，图片打不开，并出现无法登录管理中心控制台等问题。

　　2015年3月11日，Apple iCloud内部DNS错误导致其iTunes和App Store的服务宕机，一些iCloud的电子邮件帐户也受到短暂影响。

　　2015年，5月27日晚6点时左右，杭州、北京、上海、武汉等地用户反映，支付宝无法正常使用。支付宝公司对故障的回应称，杭州萧山某地光纤被挖断，导致故障。

　　2015年6月21日，阿里云香港节点当天9点30分左右突然全线崩溃，截至当晚22点才逐渐恢复，整体过程历时近13小时。

　　2015年，8月22日，位于美国硅谷的富士通数据中心供电异常，导致公有云服务暂时下线，5天后才恢复正常。

　　2015年9月20日，亚马逊AWS宕机，首先是亚马逊DynamoDB服务出现问题，此后亚马逊的其他服务也受到影响，同时波及了很多著名网站。

　　不用再继续了吧。上述诸多例子已经说明，随着云服务的普及，各种原因导致的宕机也成了家常便饭。这也算是一种云服务的“新常态”吧。

　　“公众应该认识到，云并不能保证万无一失。随着云上的应用越来越多，业务价值越来越重要，影响越来越广泛，宕机也会是常态。”英方股份(以下简称英方)CEO胡军擎表示，“有些用户以为，采用了云计算以后，就可以把安全、业务连续性等问题完全交给云计算厂商去解决，这就如同把数据问题交给磁盘厂商一样不合理。”云服务商可以为用户提供云主机，但是如何保护云主机，是否采用灾备，这些事情还是要用户自己来考虑和决定。

　　“公有云很脆弱，它们本身也需要做灾备。”备份、容灾软件提供商中科同向总经理邬玉良开门见山，“数据越集中，风险也越集中，尤其是集中部署的电子商务、云计算系统，一旦发生宕机，用户会损失惨重。”邬玉良补充说，中科同向有针对公有云的灾备解决方案。

　　同样专注于数据保护和容灾领域的爱数公司认为：如果仅仅是灾备的数据在云中，那么云本身出现问题，对应用的影响有限;如果用户的业务系统在云中，那么为了避免因云出现问题而导致损失，用户应该事先对云中的业务做备份和容灾。使用阿里云的爱数公司，会定期将业务数据从云中备份到本地，以防止出现云故障时不能对外提供服务。

　　灾备需求会永远存在

　　看到亚马逊宕机的消息后，记者第一时间询问国际灾难恢复(中国)协会(DRI China)总裁于天对此事的看法。他表示：“根据目前得到的有限信息，无法对亚马逊宕机事件做出评价。但是，并非只要发生问题就一定要给个差评。从专业的BCM(业务连续性管理)的角度看，业务系统永远不发生问题，这是不现实的。我们更关注的是，在问题发生后，如何评估影响，并采用积极有效的措施解决问题。这才是业务连续性管理和灾备存在的价值。”

　　于天认为，从报道的内容来看，亚马逊宕机20分钟后就恢复了正常，仅从这一点来看，并不能说明亚马逊在灾备方面做的不好(当然还要看其用户所受影响大小，以及亚马逊对用户的承诺)。因此，用户不必对公有云产生过分忧虑，如果真的由此而不敢采用公有云，那就是因噎废食。当然，宕机事件必须引起足够重视，并深入分析问题的根源。从BCM的角度出发，只要采取有效的措施，就可以降低发生问题的概率，减少不良影响。

　　3月11日，可信云服务第五次情况通报会在北京举行，会上公布了可信云服务第五批认证结果：在72家云服务商提交的87项云服务中，30项云服务通过了第五批可信云认证，通过率为35%，较前四批有所下降。

　　会上还首次公布了可信云云主机可用性检测情况。2015年9月至2015年12月，可信云云主机可用性监测的平均可用性达97.7%-99.9%，31%的云主机连续6个月达到了自身承诺可用性。这基本反映了当前国内云主机的可用性状况。从统计数据看，保持云主机的连续可用性任务艰巨。

　　美国飞康公司副总裁、亚太区总经理杨政表示：“作为云灾备的一个重要载体，云服务提供商能否保证自身基础架构的安全、可靠非常重要。对于用户来说也是如此，把IT迁到云端并不代表解决了所有管理方面的问题。这些云服务的提供商也许有兴趣和我们这些软件定义存储或虚拟化软件的厂商坐下来探讨一下，如何进一步提升云的可靠性，让用户更放心。”

　　作为云灾备服务商，英方也不能完全保证用来做灾备的服务器不宕机。英方能做到的是，实现合理的灾备部署，保证生产系统和灾备系统不同时宕机。“在任何情况下，企业都应该未雨绸缪，防患于未然。这也是英方提出‘让世界早有准备’的初衷。”胡军擎表示。

　　现在是全球知名的亚马逊出现了宕机，引起了人们的广泛关注，如果换成国内的阿里云出现故障呢?我们只能说，出现宕机的情况其实很正常。就像服务器厂商不可能承诺自己的服务器100%不出问题一样，云服务商也不会做出相同的承诺。这也说明，不管到了什么时代，即使是云全面普及的时代，灾备、高可用性的需求仍会存在。用户必须认真考虑灾备，这是必不可少的一环。

　　容灾要讲究方法和策略

　　“比起数据大集中，云模式的安全风险更大，因为云把所有企业和与之相关的系统、应用全都集中在一起。”万国数据副总裁张权表示，“如果企业能够采用混合架构，就能更好地分散风险。另外，采用云计算以后，智能化的监控和运维就显得非常必要和重要。只有采用智能化的监控和运维，才能更快地发现问题，解决问题，缩短RTO的时间。”

　　谈到云灾备，深蓝云海系统部总监姜亚杰表示：”首先，云灾备系统并不是生产环境，所以云服务商的宕机不会影响生产系统;其次，云灾备的监控尤为重要，一旦发现问题，必须及时采用应急处理措施;最后，云灾备本身可以通过级联或‘一备二’的方式进行灾备的灾备。“

　　作为阿里云的钻石合作伙伴，英方云独有的字节级数据捕获与复制技术可以实现I/O级别的数据增量传输，占用带宽低，节省存储空间;其多方位数据加密技术，可确保数据传输安全可靠。

　　简单说，所谓云灾备就是将传统采用物理机的灾备端替换为云平台，以便提供更具弹性、灵活性和经济性的灾备服务。胡军擎举例说：“如果用户选择利用阿里云的云主机来承载自身的关键业务，那么就应该同时在阿里云的另外一个节点上部署应用级的灾备。我们与阿里云联合提供的高可用的云主机服务是这样做的。”

　　2016年3月，深蓝云海刚刚发布了应用级的云灾备平台。“我们会针对用户的应用系统级别和相应的灾备需求，制定相应的灾备策略。有些系统可以采用‘本地HA(高可用)系统+应急”的方式，有的可以采用数据级的容灾，还有些系统适合部署应用级的云容灾，那些特别重要的系统可以考虑采用基于异构云平台的应用级容灾。“姜亚杰表示。

　　由此可见，无论是在物理环境中的容灾，还是云容灾，都要对症下药，针对客户的不同需求和保护等级采用合理的容灾解决方案。

　　张权深有同感：”灾备这个话题比较复杂，针对不同类型和需求的客户，解决方案和实施策略可能是不同的。其实，灾难恢复，不管是采用传统的架构，还是采用云，其核心问题都是数据的复制。数据复制一定要及时、有效、可靠，这样才能谈得上有效恢复。“

　　“相比传统的灾备，云灾备更加复杂，数据复制也更麻烦，尤其是对于那些大型的拥有比较复杂的IT架构的客户来说更是如此。”张权告诉记者，“针对一些系统比较简单、数据量不太大的中小用户，市场上有很多适合的灾备解决方案，可以实现数据级或应用级的灾备。当然，实现应用级的灾备相对复杂一些。”

　　“未来，当云计算普及后，云灾备这个概念可能就没有了，因为所有的业务上云后，业务的安全性、可用性可能要从云的整体系统架构的层次来考虑。”张权认为，AWS在这方面做得比较好，其同城三节点的部署方式就是从提高安全性和可用性的角度出发设计的。现在，越来越多的IaaS服务商向PaaS领域扩展，涉及的系统和应用可能会更多更复杂，如果想做应用级的灾备，实现难度也会更大。

　　责任编辑：DJ编辑

JIFANG360.com - 机房360

由亚马逊宕机引发的思考：“云灾备”来得是不是时候