机房360首页
当前位置:首页 » 业界动态 » 携程宕机:谁来解救水深火热的运维人员?

携程宕机:谁来解救水深火热的运维人员?

来源:比特网 作者: 更新时间:2015-6-16 16:12:11

摘要:原支付宝运维团队负责人智锦发表《深入解析和反思携程宕机事件》一文,让不少运维人读后深有感触,OneAPM也感同身受。面对层出不穷的安全隐患,当下运维人员亟需一套新型高效的方法论和工具,为自身运维工作“减负”,告别加班熬夜的怪圈。

  5月28日上午11时09分,携程官网和APP突然无法使用引发热议,不少人对此幸灾乐祸,衍生出各种谣言段子。公众在调侃携程的同时,可能难以体会到携程技术部的巨大压力,尤其是运维部门面临的压抑和不安。

  原支付宝运维团队负责人智锦发表《深入解析和反思携程宕机事件》一文,让不少运维人读后深有感触,OneAPM也感同身受。面对层出不穷的安全隐患,当下运维人员亟需一套新型高效的方法论和工具,为自身运维工作“减负”,告别加班熬夜的怪圈。

  运维重要性凸显

  在不少企业管理者眼里,运维长期处于“边缘化”角色,他们往往不知该如何评价运维价值,甚至很多运维从业者也不知该关注什么,每天任务就是到处当“救火队长”。

  众所周知,运维和性能息息相关,网站的访问性能(速度、稳定性),对于如今移动互联网时代的企业而言,已经成为影响公司发展过程中至关重要的一环。

  以谷歌为例,网站打开速度只要差400毫秒,用户请求将会下降0.59%。更何况携程发生如此严重的宕机事件,造成损失难以估量。由此可见,企业管理者必须转变“传统运维”思考模式,积极探索新玩法。

  通过携程宕机事件,OneAPM建议IT企业和技术人员应痛定思痛,认真总结经验教训,认识到“运维”的价值和重要性。

  APM为运维工作减负

  在传统时代,运维人员只能通过查询、分析各种日志文件来分析各种故障问题,基本上靠血肉之躯实现了业务部门的信息化,但已越来越难以适应新时代的运维需求。

  近年来,APM(应用性能管理)已成SaaS领域最火的创业方向,其能对企业关键业务应用进行监测、优化。提高企业应用可靠性和质量,保证用户得到良好的服务,降低IT总拥有成本(TCO)。

  以OneAPM为例,OneAPM专注于提供下一代应用性能管理软件和服务,帮助企业用户和开发者实现缓慢的程序代码和SQL语句的实时抓取。产品适用于复杂的现代应用程序生产环境,提供端到端应用性能管理、移动端和浏览器真实用户体验分析、业务交易实时分析,可以降低运维人员 90% 故障修复时间,减少 80% 的客服工作量。

  APM的运维价值

  携程此次宕机发生后,历经17个小时才恢复正常。究其原因,主要是对大型网站而言,数据恢复远不是搞定几个应用和几个数据库服务器那么简单。一个网站的后台是一个由SOA(面向服务)架构组成的庞大服务器集群,每一个简单页面的背后,都由成百上千个应用子系统组成,每个子系统又包括若干台应用和数据库服务器,而且不同应用系统之间也存在耦合和依赖关系。这么多复杂的系统交织在一起,数据恢复的难度可想而知。

  为此,OneAPM提供一套新型解决方案。通过OneAPM的Application Insight 产品可以实现对前端浏览器、网络传输、应用性能、中间件性能、数据库性能的自动关联及分析功能,可自动发现应用执行过程中涉及的软硬件基础架构组件,以及他们之间的交互路径。

  这也意味着,使用Application Insight 就能够根据应用拓扑和自动发现和可视化,进而实现对系统进行整体的把握。

  不久前,OneAPM客户通过后台监控发现线上服务出现异常日志,通过监控报告发现,JVM垃圾回收指标迅速升高,运维马上进行针对性的分析,很快发现出现问题的代码行,在最短的时间内解决问题。直到半小时后,该公司使用的公有云服务商才发出告警信息。

  从该层面而言,OneAPM对运维人员的价值不言而喻,OneAPM能够帮助IT运维人员提前预警,快速定位到故障问题,为运维人员节省更多的时间成本和和劳动强度。

  除此之外,OneAPM另一核心价值就是将“黑盒运维”变成“白盒运维”。传统的运维人员算是“黑盒运维”,不断去做重复性的操作,时间久了,只知道自己管理的服务器能正常对外服务,但是却不知道应用的依赖关系。

  通过OneAPM,运维人员能真正清楚所管理的系统的功能和配置,从前端浏览器到后端应用服务器、数据库,能够有效监控和分析系统执行的每一个环节,从源头上解决运维人员到处救火的窘境。

  对于携程此次宕机事故,OneAPM建议公众应以理解和宽容心态对待。对于互联网公司而言,突发性技术故障算是稀疏平常之事,Google、Amazon、百度、腾讯、阿里巴巴等也难以幸免。

  OneAPM也希望通过本次携程宕机事件,让业界重新认识到运维的价值和重要性。同时建议运维人员能接触和了解APM。当然,并不意味使用APM就能一劳永逸,OneAPM更多的是帮助运维人员提供一套高效的管理模式,以及更加智能化解决方案。

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/2015616/n498969029.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片