摘要:4月17日下午,惠普在北京嘉里中心酒店举行了惠普数据中心验证服务媒体沟通会。中国惠普有限公司技术服务事业部关键设施服务的高级顾问寇海鹰先生为大家详细讲解了惠普的数据中心关键设施验证服务。关于验证服务,寇先生跟大家共同探讨的模式分为六个课题,包括了什么是数据中心验证,为何进行数据中心验证,如何进行专业的数据中心验证,验证专业的工具以及相关的交付物,关于成功验证的价值探讨。最后跟大家分享的是验证的最佳实践。 |
什么是数据中心验证
很多时候数据中心验证往往跟数据中心的验收概念是混淆在一块儿的。寇海鹰先生声明,从时间的节点上,验证是在数据中心验收之前的时间段,只有说经过了数据中心的验证,相关的指标合格才能进行下一步数据中心的验收的工作。传统的数据中心的验收往往只是侧重于工程安装质量、机房内部环境,以及单个设备、单个系统的测试工作,并不涉及到整体的通过模拟带载的耐压测试以及基于运维流程的整体的故障和灾难预演的步骤。所以说验证跟传统验收的差异化就在于,验证提供了模拟化的真实的平台,来测试和验证数据中心所有的功能以及相关的指标,并实战检验了运维流程。
很多时候用户谈到了数据中心的工程质量保证的时候通常都会认为这是总包的职责,但对于国内外的用户来说工程承包商的职责往往只是按照图纸、按照工程预算来完成设备的安装以及相关设备的启动工作。如果说从数据中心整体的可用性、可靠性的角度,需要他来进行保证的话,这就已经超出了他的职责所在。很多时候大家往往认为性能故障的处理工作应该是由用户后期的运维团队来负责的。所以这也就是目前国内很多的用户的机电建设部门和运营部门存在矛盾的根本所在。而验证可以起到的是中间糅合的作用,把建设部门和运维部门通过验证这个工作协调在一块儿,完成数据中心最终的高质量的共同交付。
对于一个全程的数据中心的验证,往往在设计阶段就必须要介入,需要对设计的意图和设计中所采用的新的技术理念进行充分的沟通理解,从而针对性的定制验证方案。所以,对于验证来说,验证团队是需要设计单位、用户的运维团队以及工程承包商、供应商及验证服务商全程参与。通过所有相关单位的参与,最终惠普制定出来的相关的验证方案需要大家共同确认和认可。
而验证其核心目标是检验设计的预期能否完全实现。设计预期实际上从技术角度来说往往会划分为两块。第一块是性能的验证,性能的验证往往侧重于单个设备、单个系统。惠普通过专业机架式假负载的进行满负荷的带载模拟,同时会模拟不同容量的状态变化,来确保所有的设备能够支撑原来设计的预期。经过性能测试验证,确保了单个设备、单个系统的可靠性以后,第二块是功能验证,核心是把数据中心作为一个整体来看,包括了风火水电,包括数据中心运维。惠普按照运维的流程,通过故障模拟和灾难的预演检验运维的可操作性,将数据中心日后运行风险降至最低。同时通过整改验证过程中发现的相关缺陷,来保证数据中心的高质量的交付。
为何要做验证?对于大家很熟悉的日常场景,每天在高层的写字楼大家的出入是依靠电梯,电梯把我们送到任何想去的楼层,但如果某一天电梯有故障停在半空中,不知道大家的心头会不会有一些焦虑,会担心这个电梯的安全性和相关的指标有没有达到设计的要求。如果说眼前这部电梯是没有通过安全检测的话,你敢跨进去吗?
回到数据中心验证,它的核心一点是确保数据中心的可用性。数据中心的可用性实际上是基于用户的业务部门的需求。业务部门如果说对业务的可用性提出了非常高的要求,比如说T4或者是T3的要求,用户将会投入大量资金去建设相关高标准的数据中心,验证通过科学的流程、手段,测试数据中心相关功能和性能,规避建设风险,可以最大程度上保护用户的投资。
在工程验证实施的众多案例中,验证往往变成了工程实施质量检测的最终关卡。验证通过新的技术和理念,在满载的情况下可以发现很多问题,而这些问题在以往不带载的情况下是无法发现的。如开关端接不牢靠,在大负荷负载情况下就有过热,发生火灾的隐患。
惠普的验证需要用户的运维团队来全程参与处理的。验证过程中,会通过的故障和灾难预演来检验运维流程是否合理可行。如果用户运维团队全程参与了验证工作,在这样一个实战平台上进行了培训和操演,当在今后的数据中心不断扩展遇到类似的故障灾难时可以从容地面对和处理。