摘要:随着计算能力的不断增加,大型超算中心的能耗也急剧攀升。降低能耗、提升IT效能,是建设大型超算中心时需要重点解决的问题。基于此,深圳先进技术研究院在建设高性能计算中心时,将节能技术的研究放在了突出位置。本文从机房设计、体系架构设计、节能软件设计等方面进行分析,为建设绿色节能的大型超算中心打下良好的技术基础。 |
4)智能能控和运管制度
在高性能计算中心的运营过程中,精确的机房能控和严格的运管制度是推动高性能计算中心节能的必要手段。我们研究的内容包括楼宇能耗设备的热量监控系统,和节能运行管理制度。
3.2具体方案
3.2.1机房节能
1)机柜布局与空调制冷
高性能计算中心的机房制冷,采用风冷和水冷相结合的散热方案。
a)在风冷散热方案中,首先,为利于设备散热和节能,机柜的布置采用面对面和背对背的方式。同时,空调分散布置到靠近机柜的各个区域,即:面对面的机柜前方摆放制冷空调,向斜下方吹送冷风。同时每个机柜底部向上吹送冷风,加速热通道的热空气向上流动,如图2所示。热空气上方设通风口,上升热空气经通风口排出。
这样,机柜面对面布置形成冷风通道,背对背布置形成热风通道,如图3所示。同时,服务器机柜和网络机柜均采用带网孔门,门尽量有高通孔率,增大通风面积,利于散热。图3面对面和背对背的机柜气流示意图其次,在该方案基础上,还要考虑一种气流措施来防止排出来的热空气进入到冷通道而造成混风。我们的方案是一种低成本的方法,即在热通道的两头以及机架上的冷却排气系统上,使用透明塑料长条把空气控制在热通道,使用同样的长条在管道和设备周围形成一道物理屏障,从而避免混风的产生。据估计,对于大型高性能计算中心,单使用该方法每年就可以节省100万度电。
另外,针对机房的专用空调,在室外加装冷凝器水喷淋装置,以降低机房专用空调的能耗。因为若不采取辅助降温措施的话,冷凝温度会随着大气温度的上升而提升很高,直接影响制冷系统的产冷量,加大压缩机的功耗。该方案比较适用于深圳这种年平均气温较高的城市。
b)在水冷散热方案中,采用水或其他冷媒,由外部水冷机组提供冷却水经由管道输送到机柜内的热交换设备,冷却水在热交换设备内与服务器产生的热空气进行高效率的热交换,可以有效解决大功率高密度服务器所产生的热量。水冷和风冷方案的有效结合,可以更有针对性的为机房节能。
2)绿色机房供电方案
高性能计算中心的供电要求严格,供电系统由附近的变电站引入到大楼的变配电房终端环网柜,采用双环路,互为备用。将传统的集中配电改为区域配电方式,这样,将配电的管理移到“区域”级,解决从机箱到机架的集成电源管理问题。机房用电设置模块化UPS电源,保护机房正常运行的同时节约运行电费。另外,使用油机、蓄电池等设备,使高性能计算中心对跳电实现零接缝。在机房布线方面,有两种布线方式,一种是集中配线式,另外一种是两级式的线缆管理。我们采用集中式布线方式,这种方式将由一级交换机直接指向服务器,能通过缆线直接到达用户服务器,在节能环保方面表现突出。
3.2.2节能体系架构
体系架构的设计方面,主要包含服务器虚拟化和单节点硬件选择等几个部分。
1)服务器虚拟化方案
虚拟化技术整合多个物理服务器,可提高服务器的资源利用潜力。调度系统自动管理虚拟服务器,能动态构造计算逻辑域。在该逻辑域中,包含了与用户并行计算量相适应的、在机房空间区域上比邻的若干虚拟服务器群。因此,计算逻辑域中的服务器工作在满载模式,可以共享模块化的能量智控和精密制冷,而那些没有计算任务的服务器,可以工作在待机节电模式,并相应的减少制冷量。
2)存储与计算
由于计算群和存储群在可靠度、功耗、速率、使用率上都存在很大差别,因此,我们把计算群和存储群分开,这样既便于管理又利于节能。
3)单节点硬件方案
通过单节点硬件比较,初步采用如下较为节能的硬件部件。
A、采用节电多核CPU
选择Intel酷睿Core2Quad这种高效节能、架构优化的CPU。
B、采用DDR3标准内存
DDR3标准仅部分刷电,因此DDR3内存相比DDR2内存节能效果更优。
C、权衡SSD硬盘
SSD硬盘采用Flash电子阵列(例如NandFlash)作为存储介质,没有机械移动和读写部分,能显著降低功耗。但另一方面,SSD硬盘造价过高、使用年限不长,高性能计算中心不会完全使用SSD硬盘。
D、刀片服务器的选择
采用多功能的刀片服务器,在不同的工作负载下,刀片服务器的CPU、风扇和电源供应,可以分别工作在工作模式和节电模式。
3.2.3节能系统软件
在运营阶段,需要良好的调度模型和严格的监控管理,保障高性能计算中心的节能。
1)应用特征分析和自适应调度模型设计
对于应用来讲,降低部件功耗(例如调低频率或降低电压),应用需要运行的时间会加长,从而损失了性能,但总的功耗不一定能降低。因此,需要针对典型应用研究性能和功耗的相互影响关系,建立应用级高效能评价模型,这将为功耗管理提供理论依据。
该模型的研究可以从不同特征典型应用研究如手,例如:科学计算应用与数据中心应用对资源消耗的特征差异较大,前者大多独占节点和处理器运行,后者则可以共享资源。计算密集型应用对多核处理器的core、cache和memory等资源敏感,数据密集型应用对存储容量、磁盘I/O性能敏感,它们产生的负载特征不同,对能耗影响不一,导致能耗管理方法各异。可采用模糊集或粗糙集等相似性理论分析应用的负载不平衡特征,研究降低功耗的方法。作业调度系统需要根据以上应用负载特征,对应用进行自适应的调度,自动将应用调度到最匹配其资源消耗特征的资源上运行,达到功耗管理的目的。