机房360首页
当前位置:首页 » 专家谈数据中心 » 万国数据张权:高可用管理提升企业IT价值

万国数据张权:高可用管理提升企业IT价值

来源:机房360 作者:三水编辑 更新时间:2012-12-19 17:41:25

摘要:2012年12月19日,由中国数据中心产业发展联盟主办,中国IDC产业联盟网、北京三达经济技术合作开发中心承办的2012中国数据中心建设运维与用户服务大会在北京丽亭华苑酒店举行。本次会议汇聚了国内数据中心一流的专家和学者,共同探讨了未来数据中心发展建设,反映了国内数据中心建设运维管理水平的真实水平。下午先后举行了两场主题论坛,主题论坛一的主题为高效建设和安全运维。万国数据服务有限公司副总裁张权先生,介绍了高可用管理提升企业IT价值。以下是演讲实录:

  张权:各位嘉宾下午好,非常高兴和大家分享“高可用管理提升企业IT价值”。前面我们讨论到,这两年其实在国内的IT的行业里面数据中心的建设,可以说是风起云涌,我们今天整个的话题,实质也是和数据中心密切相关,数据中心在近10几年来也有一个非常巨大的变化,在早期的时候很多的企业里面所谓的数据中心,就是在办公区里面做了一个架空地板,拿一个玻璃门隔起来,里面放一个小型的CPS,这就叫小型的数据中心,和现在的数据中心已经是有太大的差别。

  从基础设计讲,已经有非常大的变成,早期的IT是一个个的孤岛系统,一般上了一个系统之后有几台服务器,现在一般大的企业里面数据中心的IT架构已经形成了跨地域和数据中心的集群网络,这些变化非常大。

  对于这几年整个的IT环境来讲,数据中心的变化只是其中的一角,对于我们现在耳熟能详的虚拟化,云计算,大数据,这些都是实质上也在冲击着整个企业的IT的架构,对于CIO来说,他们到底关心的,最根本的问题是什么问题呢?在早期的时候,尤其是再一个企业发展的初期,CIO把中心放在IT的创新方面。而且这些IT的创新确确实实对企业的发展起到了核心的重要作用。

  举个例子招行推出一卡通之前,我们之前只能拿存折,到指定的银行才能取,现在你有了一卡通,可以跨分行,或者跨城市都可以取,尤其是银行的网银的发展,影响更大,等于是把银行的柜台搬到了自己的家里,银行的发展来说有很大的成本是布分支网点,通过新技术的发展达到了和客户之间共赢的效果。

  但是是否说从IT的角度来讲创新就是它唯一的最重要的职责呢?我们说不是,尤其是最近的7、8年以来,企业的CIO越来越把他的目光关注在IT的领域上面,一方面是随着整个的IT的基础架构的变化,企业的IT越来越集中化,从2000年左右的银行开始的大结构码,已经渗透到很多行业,集中化的IT方式把风险也集中在一起,一旦IT系统出现问题,它的影响是非常大的。

  另一方面,也和企业业务对IT的依赖性有一个很大的关系,因为这些年来,随着IT的创新发展,对业务的应用越来越密切,企业的业务比较离不开IT系统了,举个例子来讲,我不知道大家经历没经历过,当时银联有一次宕机,我当时在外地出差,在酒店结帐离开的时候,刷了几遍的卡,没法支付,当时现金带的也不够,航班都影响了,据说当时在国内影响的差不多有上千万人。当时大家说这个故障是不是银联的系统架构有问题结果爆发了,我通过渠道了解,是很蹊跷的事情,据说是有一个服务商帮他测试系统,在测试的系统里面装上了系统之后,因为一些故障的原因引起了网络的广播风暴,银联的测试系统和生产系统没有完全的分割开,导致了生产系统,系统就挤爆了,但是生产系统重新再起机,刚开始没有发现故障在哪儿,终于把这个故障排掉之后,故障之后出现了异常,像我一样的很多人,一遍刷不成,要求财务人员不停的刷,意味着交易量顶到了原来系统的交易的峰值,正常情况下是很难达到了,结果内部的问题没有了,外部又出了问题,后来说把不同区域的网断掉,终于经过了8小时才解决。

  这个问题本质上可以避免,在解决的过程中也有很多的环节是可以把故障压缩到最小,由于没有一套完整的完善的管理体系,没有完整的运维操作的流程,最后把这个问题反而放大化。

  谈到不可用性,这张图是数据中心的运维经理的不可用性的图,这个图涉及到运维经理的角度就有很多,运维人员的不稳定,供应商做的服务是否到位,服务的标准化是什么样的,管理的决策是否正确,有没有集中化的监控系统,这些对他来说数据中心运维每一项的因素都会影响到他的管理的可用性。但是实质上他的视角还是比较窄了,从整个造成IT系统的不可用性来讲,还包括电力的中断,你的数据中心的电的设计,比如必须是双路供电,你的UPS向你的末端系统供电的时候,到底是单路的还是双路的都不影响,这只是我们谈到的涉及到数据中心这部分,像一些天灾也会对IT系统有很大的影响,飓风、地震,你的数据中心可能都要关闭,数据中心运维经理眼里看到的问题,认为的操作等等,都会影响到你的IT的运行。

  涉及到IT的稳定运行到底有哪些要素?至少是三个,简称是人、基,法,基是和基础架构和基础设施相关,否则你的IT很难达到稳定的运行的标准,银行规定的严格的设备管理,6年的小型机,即使运行的再正常,有可能放在测试系统里面使用,实质上我们看到这个是我们整个的IT里面运行当中的非常重要的机制。另外,我刚才谈到的管理,IT的治理,也是IT稳定运行的重要的温度。最后一个纬度,在整个的管理过程中,容易忽视,人员的KPI的体系。这里面做顾问,KPI的设计的时候,听到一个案例。口三特(音译)里面要考核它的接线员的接电话的数量,从人员的管理上都是基本的原则,后来发现KPI的设计产生了很大的问题,的处理的效率降低了很多,尤其是碰到复杂的问题的时候,接线员尤其是三言两语对付了,先挂了,可能满足了KPI体系了,但是从你想达成的目标可能是起到负作用。

  可用性管理,也是一个长期的反映,在这个过程中有各种各样的流派,有强调IT基础架构重要性的,有强调事件运维整个管理流程的。这些流派都是说只看到了问题的一个方面,我们认为应该是一个系统化的工作,应该从多方面考量。而且高可用性管理,我们认为要秉承一个叫做H3A的理念,要强调3个方面,向高品质,这是毋庸置疑,另外一个非常重要的方面是在目前的网络化的浪潮上,我们现在很少有IT系统是封闭的,和外面没有接触的,这基本是不可能的,安全也是IT的管理里面必须要考虑的一个方面,还有一个是可用性管理,正是因为涉及到这些要素,必须要基于成本效益的问题。谈可用性管理必须是高品质和高安全的,同时是高效率的。

  谈到高可用性也必须强调高可用性的适用性。银行的可用性的要求和零售的可用性要求肯定不一样,比如你的OA和财务系统的可用性的要求也是有差别的,你在实行可用性的管理的时候,你不能一概而论,还有一个对于一个企业来说,他要设定自己的可用性管理的目标,不同的阶段不一样。物流行业在10年前的IT系统仅仅是一个财务支撑的作用,可用性的要求并不高。

  对于高可用性来讲,我们把它归纳成一个体系的框架,我们不仅要关心技术的层面,另一方面你必须要关心管理的层面,另外,我们把他涉及的重要的要素总结成5+1的环节,这5个环节指的是数据中心的基础设施的可用性、IT架构可用性,灾备架构,安全架构和运维管理体系在可用性。这5各环节之外的是IT基础架构,你的人,你的文化都非常重要。对于可用性管理来讲,和应用,软件开发的管理的文化的要求是不同的,对于开发来讲需要创新性。对于新技术的采用来讲,你要保证新技术是可靠的,才能应用到整个的架构里面来。

  可用性的管理,刚才我们谈到了5+1的大的环节,我举一个例子,这是GDS的数据中心的运维治理模型,是错数据中心的运维管理的角度来看我们怎么样来提升可用性。在我们的数据中心的运维治理模型中,我们分成了10个域,250个小项提升的,整个的治理模型我们花了3年时间,涉及到业务连续性、安全、人员、质量的管理,从整个的大的框架里面,摘出一个最简单的例子,在数据中心的运营管理里面,有两类非常重要,一类是监控体系,这是你去做IT服务的时候非常重要的一个方面。另一方面是在现在的数据中心的运营管理实践中巡检也是非常重要的。说起来巡检是最简单的,举个例子,你要求内部的OLA是两个小时巡检一次,你看你的操作员转一圈看到设备有没有问题,但是这在可用性要求不严的时候只是一个简单的动作,但是要求高的时候可能就是很复杂的动作,对系统的熟悉程度有关,甚至和心情有关,本来30分钟做完巡检,5分钟他就做完了。我们在这块吃过苦头了。我们针对这些东西,后来用工具化固化。我们运维管理巡检的时候有固定的流行线,你是怎么走过去的,这是一个效率和客户安全的问题。你在每一个机架面前应该看什么东西,到了哪儿做什么东西,划一个勾,别看简单的动作,从事后检查的时候我们可以控制这个人是不是到了那里,是不是看了那个东西。我们把巡检提到很高的层次。

  另外有一些机柜的重要的设备放在低机位的位置,假设人员不认真,直着身子走过去,底下的指示灯看不见,比如我们要求单膝跪地,如果你不做这个动作,我们会有录像来审计。

  我们也会有要求来提升可用性,我们现在往往提供双活结构,可以提升资源的可用性的同时带来运营商的很多问题,你如何处理,这都是在可用性的管理中要涉及的地方。云计算也是一种新的技术,用云的技术做灾备也是非常好的选择。你怎么做,技术上怎么实现,恢复的预案上怎么处理,这些东西需要非常准也得东西。我们也推出了云灾备的措施。

  从上面的讲述我们可以看到如果我们提升IT的可用性来说,它是一个很复杂的东西,需要一种整合的方法论,也需要你有一个路线图,今天你做什么,明年做什么,这样才能逐渐的达到可用性管理目的,当你达到整个高可用性管理目的的时候就意味着你的业务的发展有了一个强有力的支撑。

  下面简单的介绍一下GDS公司的情况,是国内最大的业务连续性的提供商,我们是国内最早做灾备的厂商,我们参与了国内的标准的制定,现在也是国内企业级数据中心的提供商,IT的外包服务在行业也是有举轻若重的作用,我们数据中心的网络也是覆盖了华北、华南地区,也辐射到了亚太地区,截止到2011年底拥有数据中心的面积达到10万平米以上,纯机房面积超过3万平米。整个的设计、架构以及运营管理都有很多的值得学习的地方,如果哪位同事对我们的数据中心有兴趣,可以到外包桥做参观,谢谢!

  责任编辑:三水

本文地址:http://www.jifang360.com/news/20121219/n637643372.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
更多
推荐图片