机房360首页
当前位置:首页 » 专家谈数据中心 » 艾默生叶雷霖:Trellis-构筑智慧数据中心管理平台

艾默生叶雷霖:Trellis-构筑智慧数据中心管理平台

来源:机房360 作者:yayo编辑 更新时间:2011-12-22 13:23:02

摘要:2011年12月22日,在工业信息化部、信息化推进司、中国数据中心产业联盟的支持下,中国IDC产业联盟网承办2011中国数据中心建设与运维高层论坛开幕了,此次论坛以“领先科技,缔造未来”为主题,与会将就新一代数据中心规划,建设,运维,和安全等实质性问题进行广泛探讨和互动交流。机房360对本次高层论坛做了全程直播。以下是叶雷霖演讲的全文实录:

  2011年12月22日,在工业信息化部、信息化推进司、中国数据中心产业联盟的支持下,中国IDC产业联盟网承办2011中国数据中心建设与运维高层论坛开幕了,此次论坛以“领先科技,缔造未来”为主题,与会将就新一代数据中心规划,建设,运维,和安全等实质性问题进行广泛探讨和互动交流。机房360对本次高层论坛做了全程直播。以下是演讲的全文实录:
  
  叶雷霖:大家好,非常高兴在这里跟大家做一个关于艾默生一些理念和管理解决方案的分享。大家比较清楚艾默生在数据中心整个设计方面有很强大的一个背景跟经验,比如提供了很多空调,供电,机架,以及很多监控的解决方案。目前来讲,艾默生在整个机房建设,以及整个机房解决方案有他独到优势。今天我不是讲艾默生机房建设,而是对整个数据中心管理艾默生有一些新的东西,需要跟大家进行分享。
  
  从数据中心的建设来讲,大家知道随着大家业务一个飞速发展,传统数据中心建设思路正在发生很大变化。比如讲我们在模块化数据中心,集装箱式的数据中心,我们在讲构架式的数据中心等等,艾默生都提出自己的解决方案。数据中心整个生命周期其实往往很长,但是我们建设完成之后,在未来运行和管理这个阶段,我们需要什么样的工具和平台来帮助大家进行更好的一个管理,从而保障数据中心可用性,以及效率。
  
  这个图是前不久提出一个数据中心管理成熟模型,大家知道数据中心建设标准有Level0地Level1等。其实在数据中心管理这一块,提出一个更深管理模型。大家可以看到在最后两点,从资源到芯片,以及商业模式整体监控测量并提出改进。提不止简简单单监控,这是整个在世界业界对基础数据中心运维方面提出一个新的指标和理念。艾默生来讲,Trellis这个解决按平台,DCIM就是数据中心基础设施管理的缩小,不同部门有不同的叫法,或者基础架构运营部门,动力运营部门等,但是范围都是一样,都是包括整个供电,制冷,机架,服务器,以及业务运行环境部署,都统称为基础设施。在这张图里面大家可以看到艾默生有很多熟悉品牌,还有一个Apesture品牌。这家公司是2008年被艾默生收购,这家公司在做什么?他有20年从事数据中心基础设施管理软件方面经验。
  
  刚才前面一位演讲领导也提到我们在IT运维,这些都是基于IT最佳流程和运营。Apesture做的就是把IT延伸到传统领域,其实我们在对冷冻水技术做日常检修的时候也是一个变更管理,可能会牵扯到我们对IT系统影响,就需要做到相关事件管理,应急管理,甚至报告管理。所以说,Apesture就是专注于DCSM的解决方案,为全球一半客户提供服务和最佳的管理实践流程。Emerson大家也非常熟悉,在09年艾默生以12亿美元收购,Emerson相应也提供一些平台管理软件。通过对上层管理平台的收购和对IT管理平台这么一个引进,艾默生就可以做到从传统物理空调制冷,一直到IT设计,芯片级完整信息链平台打造。
  
  所以,在不同层面艾默生目前有能力向大家提供不同的解决方案,其实有很多种方式,在这之前,Apesture,Emerson都有自己的软件,我们集中到同一个平台,就是Trellis平台,使命是构筑一个智慧中心管理平台。可以看到下面从电源制冷,监控,环境,机柜,布线,人员,芯片,以及远程访问等等。所涵盖范围从建筑,机柜等等,从大环境到微环境提供全面接入和管理平台。其实在这样一个战略下面,我们有两种方法,一种方法我们把和Liebert软件做一个集成,08年收购Apesture,09年收购Emerson,这两年我们在做什么?我们在打造一个新的平台。我们可以把老的平台用一些数据,集成的方法串联起来,来做一个宣传,但是我们没有这么做,我们花了2年时间,花了有将近1亿美金投入,花了全球400人团队来做了这么一个Trellis平台,是基于未来云计算架构,虚拟化技术对基础设施进行重新构筑。
  
  首先是一个模块化应用,各行各业对数据中心管理其实管理成熟度,以及颗粒度要求是不一样的。比如说,我们运营商管理就比较成熟,在这块情况下,我们通过把管理在应用上面进行分级,可以满足各行各业客户尽快部署,以及很快的灵活性。这个模块化平台都是为DCIM提供一个解决忙按。这张图是关于DCIM的研究报告,在这个图上面会看到很多熟悉技术,比如柜间制冷技术,高热密度制冷技术。大家可以看到DCIM在这块即将进入一个成熟,稳步发展阶段。
  
  我们说Trellis是解决DCIM数据中心基础设施有效管理的必然条件,刚才很多嘉宾谈到运维中心运维问题。首先面临运维人员不足,数据中心虽然是企业的一个信息中心,但是里面非常复杂,相对都比较困乏。第二资源,现在我们做数据中心建设和运维提到第一点就是资源,空间资源,电力资源,没有地,没有变压器,没有人,机会的空间不够,资源是制约我们业务发展的首要瓶颈。
  
  第三我们缺乏一个统一基础设施运营管理平台,对于IT运营管理平脱,比如他们都有自己业务综合管理系统,但是基础设施这一块,一直存在一个各自为战,缺乏统一数据员的状态。比如有监控系统,有资产管理系统,有一些报表,有一些Excel等等。这里有一些数据,1美元支出将会达到7美元成本,这是1:7,我们在建数据中心的时候要考虑如何管理,在建的同时应该把管理的思路引进去,这是我们艾默生将要完成的,从数据中心规划建设一直到数据中心运维管理,需要帮助大家进行的一个分享。
  
  同时DCIM平台也是业务管理系统基础平台,包括虚拟化管理平台,IT设备管理平台都需要在这个基础管理之上。DCIM平台要做到很好管理,首先要做到完整数据中心基础数据的一个配置问题。现在很多系统是分散,离散,数据员都是来自不同系统。比如说我们在数据中心很多资产管理我们用台账,很多冷冻水系统,供电系统,包括我们的员工利用邮件和会议系统进行沟通,包括我们会用单一监控系统,UPS监控,空调监控来形成单一数据库。作为一个运维中心管理者如何把这些数据放在统一平台进行有效融合和管理,进而帮助你做出一个很明智的决策?这是我相信在座运维主管和建设主管每天都在思考的问题。
  
  对Trellis和DCIM管理,我们首先需要建立一个统一且联系的数据管理平台,而这个平台是有相同的属性,相同的数据定义来实现。同时我们需要一个流程来管理这些数据录入和输入,采集,验证,固化等等,这是一个基础数据平台搭建。刚才谈到基础数据重要性,往往数据管理是分层。比如我们把维护团队,甚至把我们建设团队分成了整个基础设施层,设备层,IT层,业务应用层。但是,在艾默生看来,从云计算的角度,虚拟角度,数据中心层级结构慢慢正在被融合。我们认为数据中心是一个从单一静态系统慢慢正在向一个复杂,异构系统正在逐渐演变。
  
  这里面业务系统是依赖于IT系统之上,IT系统又依赖于整个基础设施系统之上,应该从静态割裂关系而转变向互动,融合,以及相互协调的关系来发展,这样的话才能在数据中心维持可用性的同时,尽可能的保障高效。大家都知道,以前我们运维,或者我们建设的时候,比如IT用大家电,多少智能,IT往最大化算,我要保证可用性。但是,这样带来的是什么?这样带来是你效率的丧失,你PUE的提高。所以说,如果把我们数据中心看成一个动态调节的生态系统,我们在IT系统,我们在物理基础设施系统之间搭起一些桥梁,这个时候我们在保证可用性的同时,同样我们也降低我们的能效,降低我们的PUE等等。
  
  这个就是我们Trellis管理平台所要解决的问题,帮助大家在基础设施和IT层面架起一坐桥梁,这是Trellis。我们可以看到Trellis信息链,控制链,决策链,可以看到从数据采集跟接入,到数据一个自动分析跟处理,进而把这些数据转成大家决策行动。我们刚才提到一些变更管理,变更管理首先你要满足数据接入,进而对数据进行一些分析,这样才能支持你变更管理的一个决策。等一下,我会对Trellis一些细节做一些阐述。控制链,会从设备管理到系统管理,一直到我们高层运营管理来进行这些信息控制。
  
  那么,最终Trellis会达到一些决策链,而你决策的一个基础是什么?基础设施成本,我们宕机影响,以及如何优化我们运维,如何优化我们整个基础设施的运维。这就是Trellis平台要打造的信息链,控制链和决策链,这个有别于我们传统简单的一个信息系统监控,因为它的领域已经从整个设备拓展到了从大楼,设备,以及到我们的芯片。
  
  首先,我们要看见分析,决策,才能行动,这是我们对整个运维模式的理解。Trellis平台是如何运作的呢?是我们通过,大家可以看到我们通过中间我们有一个叫“通用管理网管”,大家可以理解成一个非常强大的服务器,这个通用管理网管可以在IT跟技术设备之间架起一座桥梁。大家以前用过KVM有些客户会比较熟悉,他可以接入KVM型号,可以接入其他型号,也可以接入IPMI的型号,来达到对IT设备接入,而且是自适应的。同时,也可以通过智能SMP的端口,或者说串口来接入我们传统的空调,制冷,甚至是一些邮寄的设备。
  
  所以说,通过通用管理网管,首先我们在管理模式,在装置级别上就发生翻天覆地的变化。当我们接入一台设备的时候,可以自动发现你接入是一台服务器,还是网络设备,或者你接入的是艾默生空调,电源等等,完全是自动配置,自动发现,万万降低了部署上的风险成本。
  
  刚才是我们对底层硬件的介绍,对上层管理软件和管理功能这块,我相信是在座各位运维主管们特别关心的。刚才我们提到Trellis一个理念,就是把整个理念引入数据中心基础管理,我们在Trellis是融合IT管理跟整个基础设施管理,我们来看一下从IT管理能力来讲,分成资产管理,因为资产管理是所有决策跟信息支撑。在资产管理可以做出相应配置和变更计划,我们对虚拟机的一些接口,虚拟管理平台接口会做相应虚拟化分析,这就是Trellis平台独到之处。比如我们在虚拟化业务迁移的时候,基础设施如何做一些相应调整变更,同时我们有相应流程管理,以及场景模拟。
  
  刚才我们演讲嘉宾也提到我们变更管理是运维当中最头疼的一件事情,我们要做不停的预演,对每个预演也要做相应后备方案同样,在Trellis系统当中,我们场景预演就完成这么一个功能,在整个部署之前我可以先进行模拟,以及分析模拟和变更所带来影响,进而帮助你选择不同的变更方案。而且,在这之前你一周需要完成一个模拟或者变更计划,可能在系统上面你只要几十分钟,或者几分钟就能完成整个预演,推演的行为和决策。
  
  另外一个是对基础设施管理,比如资产管理,供电系统可用性管理,制冷系统管理等等。我们大概看一下资产管理包括对整个IT资产管理,以及对物理设施资产管理,同时我们是可视化的界面,把资产管理的属性,以及资产管理的配置关系呈现给大家。比如说,当我做一台UPS转入的时候,我要知道这台UPS代表哪台配电柜,这些配电柜接到哪些机柜上面,这样我动力维护班子在做的时候可以通知IT维护人员去做相应预案,这也是风险控制和变更最佳实践。这个时候可以通过我资产管理建立资产之间的配置关系,这是我们所有做变更计划的基础。
  
  那么,变更计划其实对于数据中心来讲,最大的一个市场工作量就是变更。首先,我们引入一些最佳管理实践流程,我们对变更所要占用的资源,比如一个很简单例子,我服务器上架,这是一个变更,服务器下架也是一个变更。上架在哪些区域有相应空间,除了看空间之外,还要看机架里面电源是不是足够,另外也要通过温差分析这个地方有没有热点,如果有热点就不应该里面放了,应该放在别的地方没有热点区域。所以变更区域是我们所有配置数据,资产数据之间相互连接关系。
  
  虚拟化分析,我们在跟虚拟业务平台保持一种互动。虚拟化是大家比较热衷的话题,包括变更等等。你在业务层实现虚拟化,不再基础设施层有相应规划,虚拟化不仅仅带来能耗降低,反而带来能耗升高。比如虚拟化可能会导致你硬件服务器的整合,但是可能会导致局部热点出现,比如把每一台虚拟机进行集中,这时候会觉得要加大送风量,这时候别的区域就制冷要加热,就会让我们基础设施产生翘翘板的效应,反而带来能效增加。作为我管理平台我必须要感知你虚拟机动态迁移过程,进而要跟你相应调整。
  
  所以,业务层面要虚拟化,基础设施同样要虚拟化。同时,我对基础设施的数据分析应该是虚拟机的管理人员进行虚拟机部署的一个重要参考依据。所以说,我们在虚拟机分析这块,是要在我们虚拟平台跟物理平台搭一个很良好协作关系。而流程管理是我们基于我们最佳实践,在这一块我们可以通过客户化定制资源管理,因为每个行业,每个客户流程定义是不一样的,这一块我们支持流程可定制。最重要就是我们场景预演,推演,刚才已经提到我们推演基础是建立在大量对实时数据收集。
  
  比如说,你这个机架耗电,昨天耗电跟今天耗电是不一样的,我不能昨天的数据来评判我今天策略。所以,我需要对整个数据中心基础设施做出一个很完全的,实时收集,来进行场景预演,可能要分析一个数据趋势。而这些都是在我们场景预演的子模块里面,可以得到很完整的体现。
  
  刚才讲的是整个对IT方面介绍,比如站点我们配置一些阀值,展示物理数据市值。能耗管理就是我们通过一些检测设备,检测数据中心各个层面能耗,来计算PUE,精确到每日,每周,每月的PUE。因为大家知道PUE是一个动态过程,比如你设计数据中心,很多人说我设计1.6GPUE机房,你运行下来今天2.5,明天可能3.0。所以,1.6对你来说没有任何意义,PUE只有在管理中才有意义,只有在运维中才有意义,但是是我们建设的一个指导标准。
  
  供电管理系统跟我们整个可用性非常重要方面,而在之前我们供电管理这一块应用,在成熟管理程度这边是非常不好,很大原因IT的人是很大不懂电,而用电的人往往对IT接触非常少。所以,在用电管理这块,我们通过一些可视化的图表,把整个供电系统从变压器一直到机柜PDU,各个层级的配置关系,通过一种可视化的方式呈现给大家。通过可视化试图知道哪一个开关是可用,哪一个开关是闲置,哪一个开关安装到了但是没有待载。这样我们在夺相关IT部署,可用性预演的时候会得到很好的心理上安全准备,进而评估我们可用性风险,以及可靠性的提高。
  
  制冷系统的管理,制冷系统是目前来说数据中心能耗一个非常大的方面。艾默生在制冷这一块有非常好的经验,比如说我们在医疗系统群控,空调系统节能,高热密度都有非常好的经验,但是我们移植到制冷系统平台,通过一些容量和利用率明确制冷系统的一些阀值。同时,我们对冷冻水系统接入,我们对冷却水接入,制冷系统接入,都可以增大我们对系统管理,并且进行快速维护,快速修复提供一种可能。
  
  这个是我对Trellis硬件,软件一个大概介绍。总而言之,Trellis系统是艾默生在经过2年磨一剑这么一个努力之后,即将推出一个新兴管理平台,是融合了基础设施管理,跟IT基础设施管理这么一个新的平台。他的出现会为大家的建设,以及运维带来一个新的视野,这是一个,可以说这个平台是以前从来没有出现过的,他给大家带来的价值,其实很简单,就是提高我们数据中心可用性,能耗利用性,以及提高我们日常维护工作效率。也欢迎大家随后到我们展台拿一些Trellis方面的资料,谢谢大家。

  责任编辑:yayo

本文地址:http://www.jifang360.com/news/20111222/n883932593.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
更多
推荐图片