规划和设计弹性、高效的数据中心_机房360

摘要：不断发展的技术已经发展出了为创建安全、可靠、高可用性和适应性强的数据中心空间的最佳实践方案。

　　不断发展的技术已经发展出了为创建安全、可靠、高可用性和适应性强的数据中心空间的最佳实践方案。

　　对于当前数据中心业界的工程咨询顾问人员们而言，设计越来越高效和可靠的数据中心仍然是一大高度优先级事项。从保持业务的连续性和管理运营到最新的云服务和外包服务的急速增长，以及对互联网服务需求的不断增长给数据中心的设计、能源消耗和这些设施的运行不断带来巨大的压力。而在设计使用最先进的系统和设备时，我们也不能忘记数据中心操作人员和基础设施工作人员的功能需求。

　　设计效率

　　日益增长的互联网需求使数据中心的服务器和存储容量变得异常紧张。即使在2008年产生了服务器虚拟化革命之后，所需的服务器数量仍将呈指数级增长。为了满足由此带来的对于基础设施的需求，新的数据中心电源和冷却设计在其设计的每个部分都需要具备提供可扩展的容量和提高的效率的能力。这在很大程度上是由于能源生命周期成本的经济性和数据中心需要消耗大量的电力资源的大环境所推动的，由此也就激发了电气和信息技术(IT)设备领域的各种创新灵感。

　　效率一直是集成整合设计的一项要求。其可以被概括为平衡架构和工程，以便响应设施共享的环境的一个迭代过程。相关设施的地理位置、方向和暴露在数据中心操作环境中的具体情况会在数据中心的热交换中发挥相当关键的作用。这为数据中心设计工程师们提供了关于采用这些暴露的材料以有效地平衡机械和电气设计的信息。高效、非破坏性的规模化缩放是关键。数据中心内部的基础设施和系统必须考虑容量规划，以便有效地为初始数据中心IT空间服务。必须注意在最初的低需求水平下创建有效的运营，以及具备以最少的资本在超大规模，且不会在未来发生中断的情况下，扩展到未来更高的需求的能力。

　　能源效率是非常重要的，但其并不是数据中心设计的全部。相关的基础设施也必须能够引起操作运营人员的反应。对美感、比例和风格的感知也是至关重要的。数据中心设计不仅仅关乎到能效和性能。集成整合设计在做得很好的情况下，能够促使在其中工作的操作运营人员产生情绪反应。当我们在看到一辆设计时尚的汽车时就会体验到这一点。形式和功能的平衡，加上设施在环境中的共享，说明了集成整合设计的重要性。效率只是这其中的一部分，但这是设备在其使用寿命期间内保持运行有效性和能量成本控制的关键，正如对于一辆设计时尚的汽车而言，其发动机性能和燃气里程数至关重要一样。而在数据中心的设计中，工程师们的设计可能会对支持数据中心业务的经济性和环境问题产生巨大影响。

　　第一个数据中心的能源效率指标是由绿色网格组织所正式推出的。该组织成立于2007年，是由一些数据中心IT设备制造商所共同成立的，绿色网格组织总结了计算数据中心电力使用效率(PUE)的一个方程公式。而到了今天，其仍然是一个简单的能够显示数据中心如何有效地使用了机械和电气基础设施能源的一个比率公式。

　　PUE =总设施能量消耗/ IT设备的能量消耗

　　该方程提供了一个简单的方法来将理想数据中心PUE值：1.0来与数据中心实际所需的电气和机械系统相关的百分比进行比较。总的设施能量消耗必须包含支持数据中心环境和数据中心内所有IT设备所需的全部电源消耗。由此产生了每年平均的PUE值反映了非IT设备所需的百分比在1.0以上。例如，1.5的PUE值表明，除了操作服务器、网络、存储器等所需的直接能量消耗之外，数据中心还需要多余的50%的能耗用于支持这些设备。

　　PUE的计算使得在类似气候条件下的不同数据中心设计之间得以进行比较和竞争，并有助于在类似的气候区域建立最佳实践设计方案。例如，冰岛地区气候条件的数据中心与位于南佛罗里达的相同设计的数据中心相比较差。机械冷却能量传入和传出数据中心受到数据中心共享的环境和部署的系统的强烈影响。

　　虽然PUE值未能捕获IT硬件部署的效率(即：虚拟化的百分比、使用百分比等)，但其会对结果标准化，以揭示电气和大部分机械工程在响应数据中心环境维护方面的良好程度，同时降低其对自然环境的影响。

　　PUE只是一种测量方法。在过去10年中，已经出现了许多专门针对数据中心的规范和标准。 ASHRAE开发出了一套全面的实用工程响应，专门针对数据中心环境的独特性。高效的数据中心并支持空间工程实践，战术和相关要求被整合到了ASHRAE的TC9.9，Datacom系列指南，以及最新更新的ASHRAE 90.1：除低层住宅建筑之外的建筑能源标准。

　　电气效率

　　电气系统效率致力于最小化电压和电流转换的损耗。变压器的阻抗、不间断电源(UPS)、电源、照明、机械设备和布线厂——与控制相结合——影响了电气效率机会。更高的电压到机架，UPS旁路或交互式模式，以及交换开关模式电源形成了电能的核心进步。在较低负载(30%及以上)使用变压器优化以实现高效低损耗性能已经成为主流。这些变压器越来越多地向机架提供更高的电压(240 Vac)，从而降低IT设备交换开关电源的能量损耗。也许UPS系统已经成为最受关注的转换技术改进，甚至在线互动操作模式也已经引起了最大的关注。而在过去，在线交互模式会被认为是有风险的。

　　随着设备从变压器和电机所获得得绕线效率的提高，工程师必须特别注意可用的故障电流或可用的中断电流(AIC)管理。更高的效率会导致更大的可用故障电流，因此，如果不经妥善管理，则会增加高架电弧闪光危险。故而《NFPA 70E：工作场所电气安全标准》和承包商风险代理将安全的重要性放在了保持业务连续性之上。因此，在配电单元最小化AIC能耗对于数据中心空间内的风险管理是相当重要的。应考虑UPS配电中的限流断路器，以降低故障能耗，并在整个电源链中进行选择性协调。这些方面的努力都是为了尽量实现业务节约并加强安全的一部分。

　　为了解决最常见且通常是最具物理破坏性的故障条件，接地故障，并同时保持最高可用性，数据中心工程设计师必须考虑将接地故障中断进一步推入配电。通过使用接地故障检测和对隔离的单个主配电段的中断，可以在不同的故障条件下接合主断路器。避免主断路器接地故障中断应该是一个优先事项。配有光电故障检测和电流减少电路(相对较新的选择性协调)的主开关设备可将故障隔离到开关柜。不要忽略工程师可以采用高电阻接地设计，允许接地故障在较低的能量消耗情况下持续，直到可以识别确定位置。每种方法都有其各自的优缺点，故而工程师们必须根据所采用的配电策略进行评估。

　　当重要的电力导线位于地下或板下时，电气工程师还必须密切注意该地点的土壤电导率。连续高负载系数的能量损失需要仔细分析，以精确地确定这些地下馈线的规模，以获得数据中心连续负载特有的加热效应。在分析负载系数，混凝土封装，导线规模和扩展管道库之后，预计可以减少数据中心负载特性产生的加热效应。此外，土壤报告有助于进行精确的接地计算，并确定识别水位深度。到达地下水位的导线部署是非常有益的，因为它们具有低阻抗。

　　新的基于云服务的数据中心已经迫使数据中心运营商们必须采用更高的功率密度和负载系数，这为效率创造了强大的支撑。为了实现每台机架的负载达到10到30 kW(或更多)，设计过程中可能需要向机架添加冷却液，紧耦合冗余冷却和热存储系统。在设计靠近水和其他冷却液体的数据中心配电系统时，工程师必须平衡PUE和用电效率与可用性。创建一套始终可用且可维护的设计，确认故障潜力的独特需求，甚至是响应机架水泄漏的设备，都是非常关键的。操作运营人员如何在不发生中断的情况下为每项处理事件提供服务是每个设计响应中的重要组成部分。

　　机械效率

　　为数据中心设计的机械系统负责管理机器效率、热传递、控制和空气/水流量的损失，以实现更高的效率。今天的最佳实践策略必须关注于气流管理和节能器操作。这些措施包括密封遏制和可变气流，空气/水侧的节能和绝热加湿，以实现最大的节能和最低的PUE。控制在管理设备和冗余方面仍然至关重要，但也应用于调整冷通道中的温度和湿度条件。

　　在数据中心内部，架构师和工程师必须共同处理独特的热环境。许多数据中心操作环境空间中的温度和湿度条件需要特别注意，以便管理与周围环境空间的能量交换。墙体结构类型，绝缘水平和蒸汽阻挡层是必须考虑的几个因素。空气，水，电气和电信基础设施的渗透在这些边界需要特别注意。建筑架构师和工程师必须管理由内部环境所创建的热能交换。内部空间温度和湿度条件应由设计说明。密封遏制解决方案提供紧密的气流管理，但应适当考虑穿过和通过密封结构及其邻近的增量。

　　IT设备制造商和数据中心运营人员在能源管理中发挥了关键作用。这种类型的设备消耗了最多的能量。降低IT能耗有利于降低电气和机械系统的能源使用和损失。专注于服务器虚拟化，整合和停用以及高效电源选择的运营商将极大地提高数据中心性能。所有这些措施结合在一起，形成了有效的数据中心IT操作的完整视图。

在数据中心的整个生命周期中可能会经历10到30代不同的IT设备。凭借对技术历史的掌握和未来技术的愿景，我们创造了高效的、适应性强的环境，能够持续到未来。

　　特定数据中心站点空间的考虑因素

　　接近充足的电力供应、电信运营商和水利水电设施是数据中心选址的一个主要优先事项。但是，其他一些考虑因素也起到了关键性作用。数据中心的规划必须评估和解决各种具体的场地和空间需求(见上图1)。评估场址5英里内的区域潜在威胁，例如危险材料操作，是至关重要的。而且即使附近地点发生事故也不应影响到数据中心关键任务的操作。

　　概念数据中心计划

　　在评估和建立适当的数据中心安全级别时，数据中心选址站点与邻近物业和道路的关系起着重要的作用。数据中心物理结构的规划以避免其受到诸如停车场和访问入口和装卸码头等人为威胁的影响。内部空间规划则侧重于逻辑的空间关系和所需的大小(见下图2)。由人员配置和安全状态所决定的要求，将影响到数据中心的安全和结构。一些数据中心空间，如邮件处理，越来越多的采用外包或物理分离，以控制风险。

　　随着数据中心站点的建立，其操作空间可以提供外部和内部的电气，机械和能量存储系统。在这些空间内，需要巨大的功率来保持技术的运行以及需要保持24/7全天侯的冷却设备。因此，能源的管理和高可用性的创造是商业必需品。

　　业务运营和连续性

　　即使采用冗余设计，设计人员也可以通过识别和减少导致停机的风险，来持续的提高服务的连续性。这些原因的历史表明设计师们可以帮助改善运营的连续性并降低运营成本。Ponemon Institute的研究显示，随着市场对于数据中心处理信息需求依赖性的增加，停机中断的成本指数也在不断增长(2010年为5,000美元/分钟，2016年为9,800美元/分钟)。

　　通过为数据中心设施管理人员提供操作和测试其基础设施所需的工具和信息图形，设计人员可以帮助创造更大的业务连续性。当操作人员必须对瞬间发出的通知在第一时间作出响应时，更直观，更快响应和可管理的系统有助于改善他们的知识和判断。

　　任务关键的可靠性/可用性，操作人员和直觉

　　推动数据中心和关键任务设施的设计和运营的根本重要问题保持相对不变。高度可用，高效，耐用的设施，平衡客户的资本和运营成本要求是目标。这些操作空间是为未来的IT系统及其操作人员而设计的。这是因为对这些设施生成的信息及其存储的数据的需求不断增长。现如今的市场对于数据中心服务的依赖性超过了历史上的任何时候，并且其依赖性还将继续加速。因此，这需要专业人员巧妙地将IT设备与可以操作这些设备的人员(在不发生停机中断的情况下)结合在一起(见上图3)。

　　在所有基础设施元素中可靠的设计是关键。提供最简单，最可靠的交付路径系列，以服务负载冗余。路径应该彼此隔离，并且设计为允许操作人员为该路径中的每个元素服务而不会使数据中心发生中断。可以通过在尽可能接近负载点处设计路径互连(例如，用静态交换开关电力)来实现额外的增强效果。交付路径的进一步物理分离也是有益的，因为这可以防止一个因果事件使两个服务都被中断。

　　计算的可靠性是具有挑战性的。许多设计者可能会质疑用于计算可靠性的数据的完整性。此外，计算的可靠性对操作人员的要求很少，只有设备的零部件。在发生中断后，运营商的响应和恢复操作的时间不会对可靠性有任何影响。但是，可用性可以通过捕获时间来恢复操作。运营商操作员的平均修复时间(MTTR)捕捉到了这个关键的时间来评估、诊断、组装零件、维修、检查，并将系统返回服务。这是一个关键点。平均故障间隔时间(MTBF)是元件可靠性的关键因素，更不用提运营商所面临的关键挑战了。

　　AI = MTBF / MTBF + MTTR

　　在上述公式中：平均故障间隔时间(MTBF)=正常运行时间/系统故障数

　　MTTR =校正维护停机时间/系统故障数

　　查看计算的可用性，其看起来应该相当类似于PUE——一个所有设计师都应该熟悉的数字。与PUE一样，但是却是其倒数，即通过尽可能将分母(MTTR)减小到接近零修复时间，以实现最佳可用性。

　　无论设计电信，电力，冷却，水，安全或是物理空间，这种框架的弹性对于基础管理和防止出现停机中断的原则都是至关重要的。即使是最好的设计和操作也可能会发生失败。那么应该如何帮助运营商来响应和恢复服务呢?

　　运营商的操作运营人员经常也会面临相当复杂和难以管理的设计问题，甚至在面临压力的紧急情况时更是如此。通常，物理分散在整个数据中心设施中的各种组件也增加了这种复杂性，使得操作人员难以物理监视正在发生的状况。因此，工程师应确保他们的数据中心设计既能够通过在计划或非计划事件后协助恢复，同时还可以增加操作员管理系统和提升可用性的信心。

　　工程设计师必须通过创建精心设计的程序方法来满足运营商操作人员的需求，支持在数据中心设施的整个生命周期内对于关键基础设施组件的重复测试。时间的流逝不应该在数据中心初始调试后影响到运营商的思维理念。设计人员可以支持将来所需要的禁用，旁路，隔离，测试和响应故障，同时减少客户对停机中断的恐惧。过度夸张的模拟总线，文本和指令所创建的直观的理解有助于帮助操作人员面临的停机中断的极端压力。听取运营商操作人员的关注问题应该成为工程设计师主要的目标之一。基于这个驱动原则，运营商的操作人员才能够在未来管理他们的系统时保持信心。

　　创建工具集以操作运营数据中心是很重要的，但直观的可视化也是相当关键的。数据中心基础设施管理(DCIM)软件就是这方面工具的一个例子。 DCIM工具已经获得了重新的普及，并提供了许多功能，可以帮助运营商的操作人员成功的操作运营。运营商还需要查看滞留容量，计划下一次的IT部署，并确定当前运营能力的弱点。

　　其它额外的工具。对于远程电气和机械系统的状态和控制可以集成，从而可以通过一个仪表板就能够让操作人员得以即时了解整个设施的运行状态。这个概念可以扩展到具备大型简化模拟总线，流/状态指示器和远程操作员处理的中央控制室，这可以简化理解和操作设施的任务(参见下图4)。在控制室中，操作人员可以将他们的注意力从每个项目的复杂性转移并集中于工作负载的状态方面。这不是一个新的方法;发电厂已经采用这种方法50多年了。在控制室内，设计师可以帮助操作人员舒适地观察他们的设施，建立直观的视图，并通过团队合作在风险压力升高时相互支持。

　　数据中心特性和未来

　　任何数据中心的特性均包含了如下三个因素：

　　1 用于提供服务的IT组合和比例

　　2 支持该技术组合的地方和基础设施

　　3 支持上述两者的人员的愿景

　　数据中心基础设施设计一直试图能够智能地预测和适应未来必须支持的IT设备。预期未来将会发生快速，持续的变化。最近，家庭和企业所出现的足够低成本的带宽为服务客户创造了更多的机会。

　　云计算和内容驱动的数据中心的兴起已经开始与传统的企业IT服务和设备分离。外包数据中心，如Unisys，IBM，Infocrossing和其他公司，几十年来一直使用标准设备提供服务。然而，云服务和内容提供商正在创建定制化的IT设备集，如具有集成电池的服务器，这些服务器正在改变业务结构。这些新设备将对托管、外包和企业数据中心所产生的影响尚不清楚。然而，随着下一代IT设备的推出，他们创建的服务器和存储趋势将是非常重要的。

　　半导体制造商们不断设计新一代的、具有越来越高的性能、更低的成本和尺寸规模更小的芯片。这种尺寸规模的减小和功耗的增加在过去几十年中是对设计影响的响应。其还暴露了一些设施的设计弱点，必须升级其基础设施或面临未使用的空白空间。在过去20年中，无法预测的技术不断兴起，这使得在20世纪90年代中期根本不可能预测2000年早期的数据中心负载会超过200 W / sq-ft。今天，大多数数据中心还没有超过100 W / sq-ft。未来还将不断诞生更多已知和未知的技术，并将找到其各自的方式来为我们服务。诸如量子光学处理器和直接接触式液体冷却等技术有可能为300多万美国的数据中心的现有库存注入新的活力。有一点是肯定的：数据中心的特性预计还将不断发展。

　　数据中心设计的历史和趋势可追溯到1960年及以前。不断发展的技术管理已经发展成为最佳实践，以创建安全，可靠和高可用空间，并必须适应不断发展的未来的需求。历史表明，市场对于数据中心处理需求的依赖和对这些设施所服务的信息的越来越多的依赖不会很快减慢。随着时间的推移，能效和连接性仍然是数据中心设计的核心。此外，在所有这些希望和想象中，我们必须永远不要忘记增强灵感，并支持操作这些高度复杂的机器的操作运营人员的需要。

　　责任编辑：DJ编辑

JIFANG360.com - 机房360

规划和设计弹性、高效的数据中心