创新型数据中心供电系统设计与规划的探讨——访中国科学院计算所高级工程师李成章_机房360

摘要：随着云计算、大数据时代的到来，数据中心的数据来源变得无比广泛，数据设备接入更加多样化，数据容量变得更加庞大，数据处理需要更加快速与高效，这一切无疑对数据中心机房提出了更高的要求。

　　随着云计算、大数据时代的到来，数据中心的数据来源变得无比广泛，数据设备接入更加多样化，数据容量变得更加庞大，数据处理需要更加快速与高效，这一切无疑对数据中心机房提出了更高的要求。数据中心机房一旦出现因供电中断而诱发的“电气宕机“或因空调故障而诱发的”热宕机“问题时，将可能会造成巨大损失或不良负面社会影响，如何打造安全、可靠的数据中心机房供电系统成为业内普遍关心的问题。同时，数据中心巨大的电能消耗也使“绿色、节能”成为贯穿产品、系统设计和应用始终关注的主题。如何使数据中心的供电系统达到高可靠性、高能效性与高可维护性的最佳平衡成为设计院和生产厂商共同追求的目标。本刊有幸采访到了中国科学院计算所高级工程师李成章老师，请他对相关问题予以解答。

　　电气应用：李老师您好!数据中心一旦遇到“供电中断“将会造成巨大的损失，请问对于数据中心供电系统解决方案您是怎样考虑的?

　　李成章：在大数据、可信云计算时代，数据中心主要承担四方面的调控任务：数据的处理;数据的存储;数据的交换;数据的灾备。评价一个数据中心设计水平和建设水平的高低，主要有两个指标：数据的安全可靠;节能环保。

　　在数据中心运行过程中，最可怕的问题就是“机房瘫痪”。据2015年的调研与统计，在能造成数据中心瘫痪的原因中，UPS供电系统故障占29%;人为失误占24%;空调及水系统故障占15%;气候及自然灾难(注：由它所诱发的常见市电电网故障是短路或停电故障)占12%;发电机系统故障占10%;IT设备故障占5%;恶意攻击与犯罪占2%;其他原因占2%。由此可以看出，对于数据中心机房而言，从影响数据的计算和存储、网络等三大要素是否安全可靠的角度来看：因供电系统故障而诱发的瘫痪故障的几率>因空调系统故障而诱发的瘫痪故障的几率>因IT系统故障而诱发的瘫痪故障的几率;从影响节能环保的角度来看，因提高IT设备的效率而降低PUE的功效>因提高空调系统的效率而降低PUE的功效>因提高UPS系统的效率而降低PUE的功效。

　　对于数据中心的供电系统解决方案而言，应优先考虑提高它的可利用率。按照TIA-942所推荐的供电系统可利用率的分类标准，可分为Tier-4级、Tier-3级、Tier-2级和Tier-1级。Tier-4级供电系统是由两路UPS所组成的2N型供电系统来向IT设备供电，它能确保负载”永不停电”，具备故障容错功能，其可利用率最高，适用于中大型的高端数据中心。Tier-3级供电系统是由1路市电+1路UPS/HVDC所组成的2N型供电系统来向IT设备供电，它使负载的供电系统具有可在线维护特性，其可利用率次之，适用于中大型的中端数据中心; Tier-2级供电系统是由N+1台UPS所组成的冗余供电系统来向IT设备供电，适用于中小型数据中心; Tier-1级供电系统是单机系统，其可利用率最低，适用于小型机房;

　　机房空调系统按照可用性分为A1级、A2级A3级和A4级。A1级空调系统允许温度波动的范围为15～32℃，湿度允许波动的范围为20%～80%;A2级空调系统允许温度波动的范围为10～35℃，湿度允许波动的范围为20%～80%;A3级空调系统允许温度波动的范围为5～40℃，湿度允许波动的范围最高为85%;A4级空调系统允许温度波动的范围为5～45℃，湿度允许波动的范围最高为90%。

　　近年来的相关运行实践显示：在设计数据中心机房的冷冻水空调系统时，应依据机柜的不同的功率密度来选择合适的方案。当机柜功率密度为2～5 kW/机柜时，空调系统配置方案：推荐以地板下送风为主，列间空调为辅;机柜功率密度为8～12 kW/机柜时，空调系统配置方案：推荐采用“1带多”列间冷冻水空调;机柜功率密度为20～100 kW/机柜时，空调系统配置方案：推荐采用水冷机柜或“2带1”列间冷冻水空调。

　　在近几年、对于数据中心设计有一种观点认为：某一种供电系统是最佳选择，某一种类型的UPS产品才是最适合的。然而，相关的统计资料及运行实践显示：对于这样观点而言，存在有相当的片面性。在实际工作中，数据中心应有的可用性是由用户所期望的数据安全性和时效性的不同级别、用户所应承担的不同社会责任等诸多实际需求来共同决定的，不宜主观决定的。由于不同用户的数据中心机房可用性级别不同，需选用不同级别的供电系统解决方案。

　　对于执行安全、精准、短时延以及连续不断的数据处理与共享操作为主的数据中心而言，由于它们对”业务运行中断”的容忍度为零，宜选用Tier-4级的工频机UPS供电系统，A1级空调系统。典型应用行业为金融、民航、石化和军用等领域。

　　对于执行海量存储、高速信息查询的分布式数据处理与共享操作为主的数据中心而言，由于能容忍偶发性或短暂性的业务中断，并追求利润最大化，宜选用Tier-3级、Tier-2级为主，Tier-4级为辅的高频机UPS/HVDC供电系统，A1或A2级空调系统。典型应用行业为BAT、电信及托管企业。

　　对于执行超高速，超大容量的工程和科学计算的超算中心而言，由于允许执行“间断性”的运算，为了降低Capex，宜选用 Tier-2级UPS或Tier-0级的市电供电系统，A1级空调系统。

　　对于既不允许出现“长时间的业务中断”和追求使用便利化、又面临维护能力较弱和地处偏远地区的局面的中、小用户，宜选用Tier-2级模块化UPS供电系统，A3或A4级空调系统。

　　电气应用：目前，高频机UPS的应用逐渐增多，请问其与工频机UPS相比在可用性上有哪些区别?

　　李成章：近年来，由于云计算、大数据及互联网+等市场需求的爆发式增长，在数据中心机房的UPS供电系统中，越来越多地选用高频机UPS供电系统的设计方案。推动此发展趋势的动力是：同工频机UPS产品相比，高频机UPS产品具有更高的效率(从94%提升到96%～97%),更高的输入功率因数(>0.99)，更低的输入THDI(<3% )，更小的占地面积，更轻的重量，更低的生产成本等优势。

　　对于采用升压型的IGBT整流设计方案的高频机UPS而言，为了提高它的效率，主要采取的技术措施有：

　　1)去掉UPS逆变器中的损耗较大的内置”输出隔离变压器:，从而达到提高UPS效率的目的。

　　2)提高UPS效率的另一技术措施是，对位于UPS的逆变器输出端的切换开关而言，采用基本”无压降”的接触器来取代存在2V左右”管压降”的SCR型的静态开关的方法。

　　近年来，在各UPS生产厂商的共同努力下，通过不断地改进高频机UPS逆变器的SPWM的设计方案，从最初两电平的脉宽调制到三电平的脉宽调制，再到优化三电平或四电平的脉宽调制以及提高脉宽调制频率等技术措施，从而达到同时提高UPS的满载和轻载运行时的效率的目的。

　　基于上述原因，近年来，提高UPS的效率逐渐变成各生产厂家和用户主要关注的重点。在此背景下，近年来高频机UPS效率的”提升速率”明显加快，成效显著。在此背景下，在高频机UPS供电系统设计与选用上、容易产生这样的误区。即：因过于重视追求高频机UPS的效率应更高，造价应更低而忽视更加提高产品的可靠性。

　　对于高频机UPS的设计和应用而言，还可能存在另外的两个”误区”是：

　　(1)各种高频机UPS都具备大致相同的可靠性;

　　(2)对于“N+1”UPS冗余供电系统而言，它的总并机数量可不受限制地增加。

　　与工频机UPS相比，高频机UPS其技术弱势主要表现为：(1)故障率相对较高;(2) 由于它的输入功率因数呈现电容性，从而导致发电机的设计容量配比必须增大。

　　鉴于高频机UPS相对于工频机UPS可靠性较差，对于应用于金融、电力、军用、民航空管等关键数据中心机房而言，建议：优选工频机UPS产品。为说明工频机UPS与高频机UPS在金融IDC机房中，所呈现出的长期运行的稳定性和可靠性之间的差异，现举例说明如下：

　　2014年5月，当给某金融机构供电的10KV高压电网出现停电事故时，位于该金融机构数据中心机房内的3×300 KVA高频机UPS并机系统中的1台UPS发生”炸机”故障，并导致并机系统出现”输出闪断”事故。相关的运行资料显示：这套高频机UPS并机系统仅运行1年多，就发生了灾难性的故障。相比之下，位于同一机房中的、由已分别运行16年和12年之久的由两组3×800 KVA工频机UPS并机系统所组成的2N型双总线输出供电系统却一直在正常运行。由此案例可以看出，对于因供电系统故障而诱发IDC瘫痪事故，并将可能会造成重大损失或重大负面社会影响的关键行业的数据中心机房而言，应尽量选用可靠性更高的工频机UPS供电系统。

　　电气应用：针对高频机UPS在可靠性方面存在的劣势，生产厂商近期推出了2.0级高频机UPS，请您介绍一下2.0级高频机UPS相比于1.0级高频机UPS技术优势体现在哪些方面?

　　李成章：迄今为止，对于绝大数UPS生产厂商而言，因种种原因、尚未找到制备大功率升压型IGBT整流器的有效技术途径。在此背景下，为了能制备出大功率的高频机UPS(例：300、400、500KVA UPS)，常采用所谓1.0级高频机UPS的制备技术：采用由多台三相、小功率的UPS功率模块”并机”的技术途径来组成、从外观上看起来似乎是一台完整的”大功率UPS单机”的设计方案，对于这样的、由N台三相UPS功率模块所组成的高频塔式机UPS和由数量更多的、更小容量的功率模块所构成模块化UPS而言，在它的UPS单机的内部必然存在”交流型的环流”。众所周知：并机的数量越多，这种可能会危害并机系统安全、稳定运行的”环流”也越大、UPS发生故障的几率必然会增高。在此背景下，如果高频机UPS的内置功率模块的总并机数量过多的话，发生故障的几率就会增大，从而导致UPS供电系统的平均无故障工作时间被大幅度地缩短。

　　此外，在市售的部分1.0级高频机UPS中，由于它的电池组带N线，对于这种高频机UPS产品而言，当它处于电池放电工作状态时，还可能因无法保证它的”正电池组”与”负电池组”的端电压和内阻相等而导致在UPS的N线上出现”直流型的环流”，从而遗留下新的故障隐患。

　　同单机“多功率模块型”的高频机UPS和模块化UPS相比，由于在2.0级高频机UPS中，采用了电池组“不带N线”和单机“单功率模块型”的新晰设计理念，使得它能在确保获得97%高效率的前提下，还能大幅度地提高UPS冗余并机供电系统的可利用率和平均无政障工作时间、电池组节数调节范围的高灵活性和设备安装的高适应性。

　　有关大功率的2.0级高频机UPS与1.0级高频机UPS之间的性能对比被示于下表中。

　　表1 2.0级高频机UPS与1.0级高频机UPS性能对比

可靠性	1.0级				2.0级
UPS机型	塔式机UPS		热插拔式模块化UPS	固定安装式模块化UPS	塔式机UPS
功率模块的设计方案	多功率模块型				单模组型
UPS单机所含的功率模块数	2～4块，典型值3块		5～10块，典型值10块		1块
单机内是否存在 “交流环流”	“交流环流”较大		“交流环流”更大		“交流环流”=0
电池组是否“带N线”	带	不带	带		不带
电池放电时，是否存在“直流偏置电流”	是	否	是		否

　　从上表可见，我们可以通过判断:在一台UPS单机内、是否存在“交流环流”、电池组是否带“N线”以及当电池组放电时，在UPS的N线上、是否存在“直流偏置电流”等技术指标来判断：一台高频机UPS到底是1.0级产品?还是2.0级的产品?

　　为了更进一步地提高高频机UPS单机的可靠性，艾默生网络能源公司所推出的、输出功率分别为300KVA、400KVA和500KVA 的Liebert eXL系列的2.0级大功率高频机UPS采用一体化设计方案，在UPS单机内“无环流”。在这里，采用了“单相功能模组”设计理念，所有的”功能性部件”均采用易拆卸的、模块化制备工艺，使得其可装配性和可维护性得到明显的改善;其逆变器采用更先进的T型三电平拓扑，双变换工作模式的效率高达97%;采用电池组不带N线的设计方案后，不仅彻底消除在UPS的N线上出现”直流偏置电流”的故障隐患。而且，还可明显降低电池组电缆的采购成本，有利于降低Capex。

　　有关Liebert eXL系列2.0级高频塔式机UPS与1.0级高频塔式机UPS和1.0级模块化UPS的性能对比被列于下表中。

　　表2 Liebert eXL系列UPS与1.0级UPS性能对比

UPS产品	Liebert eXL 塔式机	塔式机-A	塔式机-B	热插拔、模块化UPS，模块固定安装式塔式机
可靠性	2.0级	1.0级		1.0级
UPS单机的功率模块数	1块	3～4块，典型值3块		5～10块，典型值10块
是否存在 “内部环流”	“内部环流”=0	“内部环流”较大		“内部环流”更大
电池组是否 “带N线”	不带	带	不带	带
电池组节数的可调范围	40～50节12V	38～42节12V	38～42节12V	30～40节12V
电池可调的便利性	单只可调	偶数可调	单只可调	偶数可调
效率	97%	95%～96%		96%
是否允许靠墙安装	允许	不允许	不允许	不允许

　　同在UPS单机内存在“并机环流”的多功率模块型的、”1.0级”高频塔式机UPS和模块化UPS相比，对于采用电池组“不带N线“+单机“单模块型”的设计理念、所制备的”2.0级”高频塔式机UPS产品而言，它能在確保获得97%高效率的前提下，还能获得在UPS单机内“无环流”，并进而大幅度地提高UPS并机供电系统的可利用率、电池组配置的高灵活性和设备安装的高适应性等技术优势。

　　电气应用：在数据中心机房供电系统中，发电机供电系统也是非常关键的环节，请问应如何进行设计与规划?

　　李成章：首先我们先来分析一个案例。2016年4月22日11:00，当某金融机构的托管机房、在执行新旧”3+1”UPS并机系统的更换升级改造时，在发电机带载的工况下，人工关闭3#和4#UPS，由1#和2#UPS带载。在带载率为90%的情况下、运行50分钟后，因UPS过热，导致UPS冗余并机系统被切换到交流旁路供电状态。此后，在发电机组直接驱动后接的IT设备运行12分钟后，由于发电机组因发生”失磁”故障而进入”自动关机”状态，从而导致UPS输出停电，并造成部分服务器被损坏和银行业务瘫痪7小时32分钟的不良事故。

　　从这个事故案例、可以得到的经验和教训有：(1)对于金融机构的数据中心而言，理应选择Tier-4级的2N型UPS双总线输出供电系统来向它的IT设备供电。然而，该金融机构的外包负载却被连接在托管机房Tier-2级的”3+1”UPS冗余供电系统中;(2)对于金融机构的数据中心而言，一旦出现故障时、所可能造成的负面影响会很大。因此，应尽可能地将维护及升级改造工作安排在夜间进行。然而，遗憾的是：却将升级改造工作安排业务交易最繁忙的白天;(3)当UPS的输入电源因故从市电供电转变为发电机供电的条件下，同高频机UPS的高达0.99的输入功率因数相比，IT设备输入功率因数不仅绝对值更低。而且，还呈现电容性的运行特性。这样一来，一旦UPS转交流旁路供电后，发电机所带负载将会UPS转变为IT设备。此时，由于IT设备输入功率因数仅为0.93。在此条件下，发电机设计容量配比应≧2.45:1，由于设计时未考虑UPS在维修或损坏时，需转交流旁路的这种运行工况，实际所配的发电机的“容量配比”只达到2.33:1，从而导致发电机供电系统“出故障”。有鉴于此，为了避免在今后的工作中，再出现类似情况，有必要花一定的精力来研讨发电机的带载特性。

　　在设计数据中心机房的发电机供电系统时，应在能确保发电机安全带载的前提下，尽量地降低发电机的设计容量配比。大量的运行实践显示：影响发电机的带载能力的因素有：(1)用电设备的输入功率因数的绝对值和符号(电感性?电容性?);(2)用电设备的输入THDI;(3)发电机带“阶跃性负载”的能力;(4)发电机带电容性负载的能力。

　　在设计发电机的容量配比时，我们所面临的第一个问题是：能否清晰和正确地理解发电机的额定输出功率(例：100KVA/80KW，2000KVA/1600KW等)的物理念义? 我们所常见的发电机的额定输出功率值[有功输出功率(KW)/视在输出功率(KVA)]是在下述检测条件下所检测到的的技术参数：(1)负载的输入电流谐波的THDI=0;(2)负载的相移功率因数Cosф=0.8(电感性);(3)在后接负载的加载量(δW)很小的条件下，从零逐渐增大到其额定值时所获得的KW/KVA。

　　在设计时,首先需要做好发电机的选型工作。目前，可供选择的发电机品种有：限时运行功率(LTP)型发电机和应急备用功率(ESP)型发电机，由于这两种发电机均无法满足持续运行的要求，因此，为确保重要和关键数据中心机房的供电安全，一般不推荐选用，宜优选持续功率(COP)型发电机和基本功率(PRP)型的发电机。COP型发电机和PRP型发电机之间的运行特性是差异性是：对于COP型发电机而言，允许长期满载运行;对于PRP型发电机而言，不允许长期满载运行，它的平均带载率应≦70%。

　　此外，还需要说明的一点是，对于上述发电机来说，它们的带载容量一般是指在后接负荷慢慢增加的情况下，才能获得的带载能力。相反，如果发电机的用电设备是属于“突然增大”的阶跃性负载时，则发电机的带载能力将会明显下降。在这里，影响发电机带阶跃性负载能力的强弱的技术参数是：柴油发电机中的发动机的平均有效压力。下面，将以平均有效压力=2000KPa的10 KV 2000 KVA/1600KW的发电机为例来进行说明。当它的阶跃性负载的每次增加量为50 kW时，发电机的实际输出功率可达1500 kW(93.8%的标称输出功率);当它的阶跃性负载的每次增加量为200 kW时，发电机的实际输出功率为1200 KW(75%的标称输出功率);当它的阶跃性负载的每次增加量为450 kW时，发电机的实际输出功率仅为900 kW(56.3%的标称输出功率)。由此可见，发电机的实际带载能力与阶跃性负载的每次增加量δW的大小密切相关。

　　在考虑到发电机的后接负载的相移功率因数Cosф对它的输出功率大小的影响之后，所推荐的发电机“设计容量配比”为：

　　1)当用电设备的输入THDI<5%，输入功率因数为电感性(滞后)负载，发电机容量与用电设备的容量配比为1.3～1.4:1。

　　2)当用电设备的输入功率因数为电容性(超前)负载、用电设备的输入THDI为0的情况下，建议按表3来选择发电机的容量配比。

　　表3：当发电机带电容性负载时，推荐的发电机容量配比

检测条件		负载的输入cosφ
cosφ	带载裕量	1.0	0.98	0.98	0.93	0.9
电容性负载	0%	1.25:1	1.33:1	1.97:1	2.45:1	2.98：1
电容性负载	10%	1.38:1	1.46:1	2.17:1	2.7:1	3.28:1

　　3)推荐的负载输入电流谐波THDI的修正值

　　当用电设备的输入THDI<5%时，容量配比宜在增加1.04; 当用电设备的输入THDI<10%时，容量配比宜再增加1.1; 当用电设备的输入THDI>25%时，容量配比宜再增加1.2～1.3。

　　为降低发电机设计容量匹比所推荐的发电机供电系统的设计方案有：

　　1)负载的输入电流谐波治理：宜将后接负载的输入THDI控制在≦5%以下。

　　2)优选输入功率因数(PF)为电感性的UPS。对于电容性的高频机UPS而言，宜优选轻载、输入功率因数高的产品。

　　3)优选带电容性负载能力强、带阶跃性负载能力强的发电机。

　　4)对于大型数据中心机房而言，优选10 KV市电+“N+1”10 KV发电机并机集中供电设计方案。

责任编辑：hang

JIFANG360.com - 机房360

创新型数据中心供电系统设计与规划的探讨——访中国科学院计算所高级工程师李成章