摘要:当前企业数据中心所实施的气流管理方案真的是多余的吗,或者说仅仅只是运营管理人员们过于谨慎而已?在我看来,数据中心的气流管理从一开始就被定位为减少数据中心设备散热的一种手段。 |
当前企业数据中心所实施的气流管理方案真的是多余的吗,或者说仅仅只是运营管理人员们过于谨慎而已?在我看来,数据中心的气流管理从一开始就被定位为减少数据中心设备散热的一种手段。气流管理及其目标实现之间的关系相对简单明了:一旦遭遇热点,便实施适当的气流管理,也就是说,有效的堵住应该更冷的区域以及应该更暖的区域之间的孔洞,并且使之不再产生热点。该方案在经过了一段时间的实践之后,讨论议题的方向开始有所转变。企业数据中心是否可以拥有闲置的容量呢?是否可以通过部署实施一些气流管理方案,以便使得企业的数据中心拥有更多的冷却能力:包括诸如添加更多装满了服务器的机柜(但却被告知无法顺利实现)。此后不久,讨论的议题再次转向,业界开始谈论数据中心的PUE值。企业是否可以减少那些非计算处理工作任务在数据中心能源方面的费用开销呢?
虽然数据中心管理运营人员们借助气流管理方案可以直接缓解数据中心的热点,并直接释放闲置的冷却容量能力,但该方案并不能直接的大幅提高数据中心的效率和降低能源成本,而应该通过配合采用各种策略和技术,从而提高效率,并降低能源成本。当前,通过采用气流管理方案,来降低冷却装置风扇的转速,提高冷却器的温度,并为获得更多的免费自然冷却时间带来了可行的节约方案早已不再是新闻了。然而,相当一部分企业数据中心的管理运营人员们对于如何有效的将气流管理与上述这些成果联系起来的路径的了解掌握并不那么清晰;因此,在本文中,我们将为广大读者朋友们介绍关于数据中心气流管理的一些基本的概念。并将详细介绍我们是如何在数据中心实验室中做到这一点的,包括一些更一般的原则,有用的提示,以及我所观察到的其他一些企业目前的案例情况。
数据中心实验室中的气流管理
虽然我的操作运营空间仅仅只是一处实验室,但其运行的基本机械功能就类似于一处数据中心,毕竟这才是真正的重点。其与一处真实的企业生产数据中心的不同之处在于,我的实验室在将高架地板改为一般的水泥地板(slab floor),以及将冷却装置由服务器机房内吸入回风改为连接到吊顶的封闭空间回风路径方面稍微多了那么一点灵活性。由于我们正在进行实验,故而我们能够对关键变量进行快速的更改,包括诸如工作负载的密度、输送温度、程度和容器元素以及工作负载的特性(例如ΔT)等。这方面的能力意味着我们在某些转换过程中稍微有一些些小的“作弊行为”,但其实际测量的状态足以准确地反应真实生产数据中心的状况。有鉴于此,在是否实施了气流管理方案的两种不同情况之间,对于机械设备进行管理的最大控制的差异就在于设定点管理。
如果没有实施气流管理方案,数据中心的操作运营环境的历史管理设定点便与家庭或者办公室的舒适性冷却方案相似——当恒温器检测到操作运营环境的温度高于设定点时,冷却系统开始工作。而通过借助实施气流管理方案,我们的初始控制点是供应设定点。另一个基本的要素是:对操作运营环境的温度和空气量实施分别管理(见文末注释)。实际上,我们用压力传感器控制气流,并使用温度传感器控制温度。虽然这看起来很麻烦,但对于全球范围内的数百万平方英尺的数据中心操作运营空间而言,只有操作运营环境的温度才可以说是真正控制着相关基础设施机械设备的各个方面。
有鉴于我们仅仅只是一处数据中心实验,因此我们的数据采集点较之真实的生产数据中心环境要少很多。例如,每隔十秒,我们从所有传感器所收集到的操作环境温度的读数如下:
●空气处理器的排气量,每台处理器4单位;
●空气处理器的进气量,每台处理器4单位;
●空气采点位置,4处外部位置;
●天花板数量,每个密封通道边界范围内9块;
●地板瓷砖,每个穿孔瓷砖或格栅1个;
●服务器进气入口,每台机柜3个,分别位于:水平居中和垂直排列的顶部,中心和底部;
●服务器排气口,每台机柜3个,与进气入口对应部署
数据利用
虽然所有这些数据点在评估实验测试结果和应用四个ΔT的管理策略时都很有用,但位于每台机柜顶部的服务器入口温度的传感器所记录的数据全是我们用于自动温度控制的。目标是使这些传感器读取尽可能接近我们设定的最大允许温度而不超过该目标。出于大多数测试的目的,我们稍微有些“作弊”并通过阀门控制流向冷却盘管的流量控制了该数字,除非我们从一个测试过度到下一个测试时做出了非常显著的改变。然而,在我们收集实际能源使用数量的情况下,我们将操纵我们的冷水机组的离水温度(LWT)。我们的默认设置是冷水机组的水温为65˚F,同时供气温度为75˚F,这将导致服务器的最高入口温度范围为77-78˚F,然后我们对负载、ΔT或密封装置进行任何操作。显然,在没有密封或部分密封的测试中,那些可接受的入口温度只能在更低的供应温度下实现。由于我们的大部分测试都围绕着ASHRAE建议的入口温度范围,因此我们保持了最大的冷却器效率,LWT通常为65-67˚F。
传感器
微调整和相关的节能来自我们对于冷却装置气流输送量的管理。我们根据数据中心外部测量的基准气压监测压差,同时,由于我们收集的是实验数据,我们使用了比真实的生产数据中心通常更多、更精确(即更昂贵)的静压传感器。我们使用全向探头,其特征是在低于1%的速度下保持曲率引起的误差,并保持低于0.5%的迎角误差。探头本身具有+/- 0.5%的准确度和最大0.1%的滞后。鉴于我们带烟囱机柜(chimney cabinet)的服务器机房的原始工作压差目标是使得天花板返回压力通风系统维持在-0.015” +/- 0.005”H2O和供气室的+0.15”+/- 0.05”H2O的范围,这样的传感器精度似乎有些过度。然而,一旦我们启动并进行优化的冷热分离操作,我们决定在密封通道的热侧和冷侧之间找到最小的ΔP,这仍然可以避免任何热空气再循环。我们发现我们通常可以在供气侧实现+0.002”;以及返回侧的-0.001”的操作,我们的实验室技术人员会通过将总ΔP保持在0.0015”左右来定期展示。我们排列了压力传感器以反映特定实验的条件,而代表性的部署则类似于下表1中所述的部署。
数据中心测试实验室压力传感器安置情况 |
|||
系统 |
传感器类型 |
安置位置 |
功能 |
服务器机房 |
全向 |
高架地板下的盲区 |
实现地板下的大量静压 |
服务器机房 |
全向 |
服务器机房的盲区 |
实现服务器机房内的大量静压 |
服务器机房 |
全向 |
天花板上方的盲区 |
实现天花板内的大量静压 |
服务器机房 |
全向 |
参考位置的盲区 |
实现数据中心外的参考气压 |
测试服务器机柜 |
全向 |
服务器1的后底部 |
实现该服务器风扇下的气压差 |
测试服务器机柜 |
全向 |
服务器2的后底部 |
实现该服务器风扇下的气压差 |
测试服务器机柜 |
全向 |
服务器3的后底部 |
实现该服务器风扇下的气压差 |
测试服务器机柜 |
全向 |
服务器4的后底部 |
实现该服务器风扇下的气压差 |
测试服务器机柜 |
全向 |
服务器4后顶部的盲区 |
通道密封控制不适用 |
测试服务器机柜 |
全向 |
天花板烟囱的盲区 |
烟囱消耗的气压差 |
测试服务器机柜 |
全向 |
服务器1的前进气口 |
来自该服务器风扇所产生的气压差 |
测试服务器机柜 |
全向 |
服务器2的前进气口 |
来自该服务器风扇所产生的气压差 |
测试服务器机柜 |
全向 |
服务器3的前进气口 |
来自该服务器风扇所产生的气压差 |
测试服务器机柜 |
全向 |
服务器4的前进气口 |
来自该服务器风扇所产生的气压差 |
表1:带烟囱机柜的压力传感器放置情况
风扇转速调整
对于某些企业数据中心的管理运营人员们而言,将这些不同的传感器集成整合到CRAH风扇速度控制算法中可能是一项挑战;庆幸的是,这些数据主要用于验证服务器机房内的标准化,以及进行更精细的手动调整。实际气流量,即CRAH风扇速度,则由一个简单的算法控制,以维持服务器底部入口温度和服务器顶部入口温度之间的差值ΔT为2°F。
实际功能稍微复杂一些,因为我们以不同的工作负载密度安排了多排多种的服务器机柜,因此我们运行简单的平均值,并获得任何统计异常值的警告警报。因此,当ΔT增加到2˚F以上时,我们的CRAH风扇转速增加,当ΔT接近零时,我们的CRAH风扇减速。这些算法中未使用的大量温度和压力传感器不仅在报告测试的不同硬件和设计配置的有效性方面发挥了重要作用,还提供了双重检查自动控制如何运行的途径。例如,我们一开始并不了解服务器机房在做出重大改变后将会如何快速而准确地进行自我校准,例如将几台30kW的机柜更换为几台5kW的机柜。而由于我们知道工作负载数据,并且通过工作负载测量了ΔT,使得我们可以计算所需的气流,然后将其与CRAH单位的实际输出进行比较。虽然我们的实验室技术人员非常擅长宏观方面的调整,并且足够接近自动控制将它们整合在一起,但执行一个简单的现实检查仍然是更为可靠的。显然,如果这是一个真实的生产数据中心运营环境,那么某些形式的冗余和警报就已然就绪,但它对于实验室来说已经足够了。
除非我们专门测试一些明显草率实施的数据中心规则,否则我们可以大胆的说在地板、服务器机柜、机架行和服务器机房的气流管理已足够好了,我们将能够保持冷通道与服务器进气口之间最高温度变化的默认值为2˚F。我们有一款非常强大的实验室数据采集工具,并最终用它来管理我们的CRAH控制器。大多数冷却设备和楼宇管理系统完全可以做同样的事情,而不会危及设备的检修。不管怎样,我的数据中心实验室的数据中心温度控制模型其实非常简单:
●设置服务器进气口所允许的最大温度(#1值);
●尽可能在气流管理中确定可在供应/服务器入口侧所维持的最大温度变化(#2值);
●基于#2值减去#1来设置供气温度;
●控制冷却装置风扇转速,使入口ΔT保持在#2值和零值之间;
●制定项目计划,以进一步改善气流管理,减少#2值。
注释:温度和空气量是分别控制实际上是一种相当粗略的过度简化的说法。实际上,数据中心是一个将所有硬件和软件系统进行有机整合的系统。然而,在气流管理学科被数据中心业界充分运用之前,冷却容量能力通常只是是一项单一的因素,例如采用吨或BTU / H(英热单位/小时)这样的制冷量单位。实际上,根据气流管理的有效性和IT负载的类型的不同,任何设备的实际冷却能力都会存在很大差异。例如,假设气流管理系统捕获了完整的ΔT,那么具有37吨容量,以便用于将服务器冷却范围控制在ΔT为20˚F的相同冷却装置也同样可以实现55吨容量用于将服务器冷却范围控制在ΔT为35˚F。
责任编辑:DJ编辑