数据中心设施管理策略指南 _机房360

摘要：如果数据中心没有进行适当的物理维护，那么，数据中心出现突发故障后会让工作人员会手足无措，会将数据中心置于危险的境地。本文将有助于重新评估数据中心设施管理策略，实时更新数据中心内物理指标。

　　如果数据中心没有进行适当的物理维护，那么，数据中心出现突发故障后会让工作人员会手足无措，会将数据中心置于危险的境地。本文将有助于重新评估数据中心设施管理策略，实时更新数据中心内物理指标。

　　通过数据中心温度监控阻止热点

　　对于大部分数据中心而言，制冷系统故障以及服务器过热的问题远比电源故障更让运维人员痛心疾首。

　　当然，对不间断电源进行良好维护也是很重要的，它是保障服务器设备不间断正常运行的重要前提，如果遇到突发问题，电源正常运行，直到发电机启动，电源恢复或者对设备按部就班的关机。但对于现在的设备——高密服务器而言，一旦出现运行温度升高，冷却系统出现故障(即使有空调有冗余的情况下)也是可能在几秒钟内导致服务器崩溃。使用数据中心温度监控可以避免导致设备故障早期出现的问题以及无法解释的热点问题。

　　数据中心热点是怎样产生的

　　热点可能出现在数据中心的各个角落，他们会在数据中心某一角落默默潜伏，不易察觉，直到设备出现故障或数据出现异常现象才会被工作人员发现。如果您在没有了解房间冷却能力的情况下添加或移动设备，则可能会发生热点。几乎每以个数据中心中，冷却能力在房间的不同位置和沿着机架高度的不同位置不同。由于热点通常会缓慢发生，所以很容易就无法识别，直到情况严重，才会被发现。

　　通过监测数据中心温度发现热点

　　发现数据中心热点的最简单也是最省钱的方式是使用温控面板。这些控制面板上的多色条带是具有热敏性的，而且可以指示出进风温度。可以将这些指示板安装在每个机架的顶部、中间及底部附近的位置，或者在硬件前面，接近机架的顶部、中间及底部的位置安装温度探测仪。如果只能为每个机架安装一个温度探测仪，那么就放在最容易出现故障的硬件的前面，通常也就是放在机架内位置最高的服务器的前面。

　　数据中心的温度和湿度探测仪可作为智能机架配电单元的附加组件，作为单独的无线设备及部分数据中心基础设施管理系统的一部分。这三种情况都可以提供软件选项，能够实时图形显示整个机房内的温度状况。最终，你可以在设备安装之前，通过结合这些控制面板给出的数据与计算流体动力学( CFD)的气流模型给出的建议，验证安装的制冷系统设计的冷量的合理性。

　　许多数据中心都将设计了冗余冷却单元，但实际上在运行中，冗余冷却单元根本没有用到;有时候，这样的设计并不明智。一些数据中对气流的流动情况缺乏足够的了解，从而制冷情况堪忧。在现代设计中，冗余冷却单元与智能工厂冷却单元同时运行，但运行速度会降低，因此您不会意识到添加的服务器设备正在窃取冗余容量，直到冷却单元出现故障或关闭维护为止。

　　值得庆幸的是，通常，在几天内服务器在较高的温度下运，不产生任何负面影响。在紧急情况下，ASHRAE( 美国采暖、制冷与空调工程师学会)允许的温度范围提升到28℃或32℃，但考虑到边缘冗余的情况——再加上运行日久的糟糕的硬件设备，会导致服务器严重的过热，瞬间过热，会在短时内触发制冷系统关机。

　　防止数据中心冷却故障

　　有些业界人士认为解决方案是将冗余单元放在正常单元的旁边，事实上，这么做一点都不可靠。当气流从不同位置过来时时，当正常单元运行时，或者当两者一起运行时，气流模式将会有一些差异。这个看似很小的差异会导致数据中心温度变化，很有可能导致热点。

　　热指标是一个很好的第一步，但是每当硬件更改时，就关闭冷却单元，只是为了看那些服务器会过热，是不切实际的。避免这类问题的最佳方法，特别是在冗余设计中，是使用CFD对冷却系统进行建模，从而创建数据中心气流的3D模型，包括特定的冷却系统和机架热负荷。该程序使用这些信息来解决数千个形成气流分析的复杂偏微分方程。该模型提供了颜色编码的图形和数据表，显示了房间每个点的气流量，速度，温度和压力，以及活动地板下面的情况。然后很容易看到现有的额外的冷却能力，并知道可以在那里添加新的服务器设备。当然，也有情况时建立的模型中，发现冷却单元设计不合理，会导致故障，这时，需重新进行运输，并查看冗余单元是如何工作的。

　　衡量数据中心能耗、冷却效率

　　尽管电源使用效率指标有诸多好处，但是并不足以完全优化数据中心的效率。IT团队需要更详细的数据中心指标，包括电力和冷却基础设施，以及计算系统，从而能够真正意义上优化数据中心。

　　作为朝着这个方向迈进的一步，美国环境保护局在2007年发表过一份关于数据中心效率的报告，该报告阐明要为服务器开发一项能源星级评定制度。Green Grid在2010年公布水资源和碳利用效率指标，尽管他们受到的关注相对较低。2016年6月，Green Grid宣布效益指标(PI)，这是一个衡量冷却标准并将其与能源效率相结合的指标。

　　备注：PI有四个层级。

　　Level 1是根下层级，不需要巨大的设备就可以应用。

　　Level 2需要更彻底、更精确的丈量。

　　Level 3和Level 4添加计较流体动力学(CFD)的氛围流建模来提供机能监控的图形可视化，还提供假设情景阐明，预测利用当前能源效率时，将来的本领和妨碍模式是如何的。Level 3是普通建模。Level 4利用实际和具体的丈量要领，校准计较流体动力学模子作为其他尺度可信赖的精确基线。

　　我们正在滥用关于性能和效率的数据中心指标，但对于大多数IT团队，即使是那些经常追踪其功耗使用效率(PUE)的人员，采取超出该指标的步骤也需要更多的高级数据采集和分析技能。对于那些准备使用更复杂的优化工具的人来说还有一些需要考虑的方面。

　　扩容数据中心指标的目的

　　通过关闭那些没有运行的服务器、整合及虚拟化应用程序或购买能源星级硬件，实现节能是很常见的。但是，除非电力和冷却基础设施也能够得到优化，这对于现有的系统来说是很困难的，事实上，降低负载不会提高能效。这意味着PUE会变得更糟。通过使用PUE作为基准，而不是跟踪指标，可能会发现并没有大家认为的节能，所有的投资和努力是不值得的。作为管理层，他们希望投资能够产生一个更低的PUE，但他们根本不理解这个数字到底意味着什么。

　　这就是其他数据中心的指标 - 如Green Grid的数据中心能源生产力(DCeP) - 是有价值的。 DCeP量化数据中心实际产生的每瓦功耗的有用工作量。 DCeP指标可让用户确定有用工作的定义。例如，在线搜索公司可以将搜索结果定义为数量。对于零售商而言，可能是销售数量。 PUE仍然是必要的，但DCeP会被对于数据中心有较少经验的人更好地理解。虽然DCeP不是科学上准确的指标，但其提供了一种方法来量化您使用的能量所实现的实际效果。如果一组服务器几乎没有工作并且大多数时间都处在闲置状态，则它消耗最少的能量，需要最小的冷却并且不会显着影响PUE.但其仍然会消耗一定的能源。DCeP将对这一消耗进行显示;其目标是最小化能量消耗并最大化有用的工作。对于处于领先地位的企业组织机构来说，想要在他们所使用的每一瓦特功率中都能够实现真正有用的生产性计算，复杂的服务器可以提供远远超出CPU利用率的操作数据，而更复杂数据中心指标则可以跟踪结果。

　　备注：DCeP量化的是数据中心实际产生的有用的工作负载所消耗的能量瓦特数。DCeP度量允许用户建立其有用的工作负载的定义。

　　虽然DCeP不是一个科学上准确的指标，但它提供了一种量化您所使用的能量实际完成的方法。如果一大批服务器在大部分时间内都没有工作并且运行空闲，那么它的能量消耗最少，需要最少的冷却，并且不会对PUE产生很大的影响。但是，它几乎没有任何功能。 DCeP会显示; 其目标是尽可能减少能源消耗并最大限度地利用有用的工作对于处于领先优势的组织来说，想要将每一盎司的生产计算从每一瓦的功耗中挤出，复杂的服务器可以提供远远超出CPU利用率的运营数据，而更复杂的数据中心指标可以跟踪结果。

　　但是，PUE和DCeP仍然是能源效率和能源消耗。使用它们可能会产生无法识别的后果，因为它们不会泄露出为节约能源而产生的妥协，从而对冷却和可靠性产生负面影响。新的PI指标对于具有优于平均数据收集技能的管理员以及对其操作的每个方面进行优化的能力最为有用。

　　使用扩展的数据中心指标(如PI和DCeP)有三个要求:

　　1)监测PUE值

　　2)在计算操作中定义什么构成有效工作

　　3)在每个机架处，获得详细的功耗及温度测量值。

　　PI通过组合PUE、IT热依从性和IT热适应性来补充现有方法。后两者分别基于ASHRAE推荐的和允许的热封套。热适应性和弹性检查冗余冷却在正常和异常条件下的工作状况。如果必须降低计算机机房的空调空气温度以满足热合规目标，则PUE可能增加。 PI度量的要点是知道硬件被冷却的可靠性、设施的能效如何、以及一个条件如何影响另一个条件。决定距离想要达到的操作的最大值的接近程度，以及要所达到能效目标或PUE的目标。然后，测量实际条件，并将它们绘制在三角形图表上，看看它们与您企业的目标有多接近。

　　现在，有几种数据中心的指标，以最大限度地提高整体数据中心的能源效率方面的工作，包括每单位能量消耗的输出和相对于能源效率的可靠性。对于大多数操作而言，坚持基本原理和跟踪电源使用效率仍然是优先事项。其他的指标也可以适当跟踪，但PUE仍然是基础。即使您企业还没有准备好采取更为深层次的措施，但还是要了解并知道行业正在提出什么建议——如果您企业已经确立了自己的相关节能目标的话。

　　改进数据中心设施管理策略

　　数据中心设施管理(从不间断电源系统的维护到测量电源效率)可以为IT团队提供不断发展的空间。例如，较早期的指标(如PUE)已不足以了解数据中心的效率，而且提高功率密度可能导致更具破坏性的冷却故障。

　　所有这一切都意味着调整数据中心设施管理策略是非常重要的，这种调整可以适应变化的标准并保持数据中心的效率和有益成本。下面是2016年SearchDataCenter的四点提示。

　　更新数据中心的电池技术

　　随着数据中心变得越来越智能、高效，更加成熟的不间断电源(UPS)系统将成为更高的优先级。如今，需要的是具有较小的生态足迹更少的运行冷却设备以及具有更好的监测数据(如使用寿命、电池的良好状态及维护需求)功能的UPS系统。

　　锂离子电池因其与先进的UPS系统完美集成，已经成为数据中心电池电源的有力竞争。此外，锂离子电池可以提供更多的能量和功率密度，适合在数据中心内更灵活地放置的较小UPS系统，而且比铅酸电池更能适应较高的温度。

　　当选择锂离子电池时，请记住，它们不是热插拔的，并不一定是铅酸电池的直接替代品。锂离子电池的成本要高于传统电池，并且可能会有一个复杂的电池管理系统，由此增加运营成本。

　　识别并防止数据中心热点

　　今天数据中心的功率密度增加可以为效率和预算带来奇迹，但也可能导致冷却故障的风险，从而导致灾难性的服务器崩溃。如果您在不考虑数据中心的冷却能力的情况下移动或添加设备，可能会发生热点，而且很容易被人认识到，直到这个问题以破坏性的方式出现在表面。

　　为了方便地查找数据中心热点(能够通过较低的成本实现)——安装温度指示板——彩色的、热敏的带，表明进口空气温度——靠近顶部、中部和底部都安装，如果预算紧张的话，安装在最容易攻击的硬件前端。

　　温度和湿度探测器是另一种选择——要么是智能机架电源分配单元的附加组件，要么是无线设备，或者是数据中心基础设施管理(DCIM)工具的一部分，它可以提供数据中心温度的实时图形显示。为了模拟安装和测试冷却功能，将计算流体动力学(CFD)空气流模型与探测器的读数结合起来。事实上，防止冷却失败的最好方法是通过创建一个数据中心的3D模型来防止冷却失败。

　　用新指标准确地测量效率

　　近10年前，绿色电网引入了电力使用效率(PUE)。从那时起，数据中心技术的发展就有了显著的发展，使得PUE在精确测量数据中心效率方面的不足。为了获得真正的效率，IT团队需要有更为详细的度量标准，包括电力和冷却基础设施以及计算系统。幸运的是，今天的数据中心团队可以从各种度量中选择。PUE仍然是效率度量的基础，但是PI这样的新指标可以以更细致的方式提高数据中心的设施管理。

　　数据中心电缆管理提高效率

　　一些IT团队在数据中心设施管理方面无意中浪费资源的另一种方法是使用非管理式布线。布置不良可能会产生热量，并阻止楼下平面上的冷却空气流动，增加成本并造成潜在停机。

　　要开始清理过程，请使用DCIM工具进行全面库存，从服务器和交换机到网络集线器和辅助设备。使用DCIM工具，对潜在布局执行模拟，以确定最有效的设计，以及分析您当前的接线布局，以确定哪些电缆不再使用，这可以帮助您清理，而不会造成意外停机。

　　责任编辑：DJ编辑

JIFANG360.com - 机房360

数据中心设施管理策略指南