机房360首页
当前位置:首页 » 运维 » 刘东:精细化运维管理,让数据中心更节能

刘东:精细化运维管理,让数据中心更节能

来源:机房360 作者:机房360 更新时间:2016-4-25 17:02:28

摘要:精细化运维管理,我们所说数据中心运维过程中是一个很长的周期,在整个周期过程当中由于我们这几年数据中心产生一个爆发性的增长,数据极具增加,对我们运维管理过程和要求提出了很要求。在这个要求当中,在整个运维过程当中无非是三个维度,包括人、流程、一些工具。工具在整个数据中心运维过程当中,目前来看基本上是必不可少的,只不过它所发挥的作用,没有这些工具一定能做,只不过是一个粗放型管理,如果有这个工具会使整体的运维过程会可以做一个量化的体现。

  尊敬的各位领导、各位来宾,大家下午好,非常容幸有这样一个机会跟大家交流一下,我们在精细化运维包括在过程中怎么体现节能的一些方法和手段,或者是我们的一些想法和经验。

  精细化运维管理,我们所说数据中心运维过程中是一个很长的周期,在整个周期过程当中由于我们这几年数据中心产生一个爆发性的增长,数据极具增加,对我们运维管理过程和要求提出了很要求。在这个要求当中,在整个运维过程当中无非是三个维度,包括人、流程、一些工具。工具在整个数据中心运维过程当中,目前来看基本上是必不可少的,只不过它所发挥的作用,没有这些工具一定能做,只不过是一个粗放型管理,如果有这个工具会使整体的运维过程会可以做一个量化的体现。

  我们所说的日趋精细化,更多是以可知、可见、可控,这三个维度讲一下。整个数据中心所有的资源、所有的应用都做到可知、可见、可控,现在的数据中心每天的运行是怎么样的,发生了什么,发生了这些事怎么办,或者是当前的数据中心每一个资产当前的状态是什么样子。试点单位,这样一些问题困着大家,我说目前这些工具可以解决一部分,或者说目前的工具能解决的程度还是依赖于各个试点单位和各个数据中心实际运维的现状,我用到什么程度,把这个工具使用到什么程度,更关注于那些方面,在现在这个阶段可能是更为恰当。

  东软在这方面有一些积累,一体化数据中心管理平台在整个数据中心运维过程当中的价值,这个价值一体化数据中心管理平台,一体化设计,包括跑的一些应用、软件、中间件等一些相关资源,从底到上整体把控是数据中心管理者最关心的事情,数据中心分了很多种,有的数据中心是企业自用,有的数据中心是对外租用的,提供存储、计算、服务能力,这样的数据中心对自己的精细化要求和管理要求是不一样的,比如有一些对外出租的数据中心只关心到IT设备上,上面跑的应用不是我自己的,所以他对这个应用关注度并不一定那么高。如果是企业的自有的数据中心可能会关注自己的应用,跑的是否正常,出了问题究竟是由于什么原因引起的,所以每个人的关注度和立足点是不一样的。

  总而言之,一体化数据中心管理平台,可能更关注从底层包括IT基础设施层、设备层、软件层,把当时每一天实时的数据定时汇总采集上来,做一些分析汇总。最一些超大的数据中心,金融行业和电信行业,数据中心规模是很大的,管理要求也非常高。对这个数据的采集量也是非常高的,一年的采集量离我们的累积经验值基本上在十几T或者是几十T的数据量级。全面的采集感觉到我们数据中心运营过程当中全面,分析的就全面了,分析全面了结论就比较全面。

  这张PPT通过一些有效的策略预警体系,把数据中心每天甚至每一段时间发生的事情定期汇报给数据中心的管理者,包括每天的能耗数据,实时能耗数据、分时的能耗数据,包括每天数据中心整体运营情况的数据,这里面包括IT设备,也包含其他设备,包括照明、节能设备、动力环境设备、消防设备等等。总而言之,我们把策略体系建立完成以后,通过一段时间的数据积累,我会把这些数据做一个分析,分析出来把数据里面得出的结论形成一个报告给数据中心的管理者,作为决策参考依据。

  我们通过大数据技术,这一块无论是东软还是其他的厂商都有一些应用,我们会产生一些大数据的架构和CEP的技术,实行告警数据,能耗告警,把这些数据汇报给大家。

  另一个是溯源,从目前的经验来看,溯源,不是那么简单的,我怎么从很多的告警或者是故障信息中判断出来,哪些信息对我来来讲是致命的,哪些是有潜在危险的,哪些是可以不用优先管故的,这些对数据中心管理者是非常有。从告警出来这个信息是大量的,只要有告警就告诉运维人员、管理者,但是我们难以想象每天几十个、上百个、上千个告警信息让运维人员去判断,所以我们会把告警做一些等级划分、一些故障的溯源,把最根本的,最需要他处理的问题告诉给管理者或者是运维人员就足够了。

  这张PPT是讲数据中心所谓的设备可见,里面究竟用了多少设备、监控用了多少设备,比如这些设备进来以后要放在那儿。比如说今天采了20台服务器,这20台服务器应该放在什么地方,不是说机架有了地方就可放到上面去,它的空间容量够了,电容量不一定够;电容量了,制冷容量不一定够;质量容量够了,可能承重容量也不一定够。所以说怎么能把最合适的设备放到最应该在的位置。我们的资产管理,把设备从整个运维生命周期到最后保费管理起来,然后跟我们的容量管理做一个关联,能体现出来当有一台设备要上架,我告诉你这台设备放在那儿是最为合适的。

  基于物联网设备,IOT智能采集和发现的功能,目前在数据中心应用是比较广的,包括我们应用到的FID射频技术。

  如何建立绿色数据中心,这个问题我想大家比我更专业,如何建立绿色数据中心,肯定是一个系统工程,从它的设计、建设、施工、到采购一些高效的节能设备到后期运维的整个过程。

  往往我们在数据中心当中,之前我们是重规划轻运维,数据中心一切的都已经准备好,后期怎么把设备放在那儿,大家没有像之前我们做规划那么重视,在很正常的运行状态的时候,里面是没有热点的,如果在我日常运维过程当中,把这个机器搬到另外一个机架,进来20台、30台、50台这时候热点一定会发生,冗余一定会增加的。在日常运维对整个平衡环境做了一个破坏。

  这张PPT讲是容量管理,告诉你这个设备应该放在那儿最合适。

  物联网技术确保规划被准确执行,当前要知道每天运维的工作,要知道这个设备当前的位置是不是正常的,之所以有不明的资产进到机房里面来,是不是有的通过运维人员人为把设备偷偷摸摸,或者是没有经过系统换到其他的机架,做了调整,就破坏了整个机房运维的平衡环境了空间能耗的环境。

  这张PPT里面现在FID这个技术用的还是比较主流。

  主要是基于智能运维的策略级节能,从我们观察来看,数据中心用的认不是特别多,这个取决于我数据中心里面承载的应用重要程度,我非常同意上午和刚才领导同志的观点,看数据中心是否需要节能看应用的重要性,不能保它随便做一些迁移,有一些自用的数据中心应用的重要性和优先级并不是那么高,经发现有“僵尸”企业,这样可以通过一些策略配置把他的应用和虚拟机的资源迁到其他设备上,把物理控制起来或者是做降频处理。

  芯片级主动节能,和其他厂商做一些合作,包括东软和其他厂商都做这个时候事。波峰和波谷在半年同样的时间段,设备同样的CPU利用率很低,适当通过芯片技术给它做一些降频的处理。

  以上是跟大家的分享和交流,谢谢大家!

  责任编辑:余芯

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/2016425/n608781121.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片