机房360首页
当前位置:首页 » 行业快讯 » 沈卫东:服务器液冷技术与数据中心节能实践

沈卫东:服务器液冷技术与数据中心节能实践

来源:机房360 作者:yoyo编辑 更新时间:2015/11/26 18:05:21

摘要:2015年9月10日-11日,由中国电子学会、开放计算项目(Open Compute Project,OCP)、美国劳伦斯伯克利国家实验室联合主办的“中美绿色数据中心研讨会暨中美开放计算标准交流会”在上海浦西万怡酒店隆重开幕。以下是嘉宾演讲实录。

  2015年9月10日-11日,由中国电子学会、开放计算项目(Open Compute Project,OCP)、美国劳伦斯伯克利国家实验室联合主办的“中美绿色数据中心研讨会暨中美开放计算标准交流会”在上海浦西万怡酒店隆重开幕。以下是嘉宾演讲实录。

  沈卫东:各位来宾大家下午好,特别荣幸见到远渡重洋来到中国的美国的朋友们,也欢迎大家来对我们的工作进行指导。

  中国曙光我简单介绍一下,是中科院计算所下面的公司和联想是兄弟,但是分工不太一样,联想更多是商用和家用的计算设备,曙光主要是高端的超级计算机或者高性能计算机的领域,分工不太一样。我们的品牌可能不是那样广为人知,但是在HPC领域里面,我们一直连续六年是大陆地区的市场占有率NO.1。

  我这个题目关于液冷服务器是我们部门主营业务,除此以外我们还有其他一些业务,包括高功率密度空调机,包括整机系统,包括微模块,但是我们微模块排一级的微模块。

  曙光设立这样一个部门,或者设立这样的事业部,或者将来我们是子公司,开始的目的只是为了给我们自己服务器未来的下一代的超级计算及的服务器做配套的,目前我们也开始走入市场为其他非HPC市场和用户提供一些服务。在正式开始之前,我放一段视频,这段视频是我们刚刚实现的,有一点像间接是液冷服务器,刀片式服务器实践的案例。

  已经在北京运行了一个多月,也是比较新的,这是国家的一个课题项目,大气物理地球模拟装置项目其中一个小的实验机,大家见到三层机柜码在一起的,连在一起三层机柜,一会儿讲原因为什么摞起来,这台计算机未来三年以后一个模块,未来十个模块,将来有十个这样的微立方。目前见到的应该是国内最先见到的液冷刀片式的服务器实际应用案例。

  现在正式向各位汇报今天的内容,大致分为四个方面,背景,液冷技术分类,曙光间接式液冷技术,以及曙光直接式液冷技术四方面。

  背景:应该说液冷技术的推动力,实际上来自于核心,就是CPU。CPU在不断的进行发展,纳米到了7纳米,意味着什么呢 ?在同样一个面积的芯片上,做了更多的核,放了更多的晶体管,所以发热会增加,功率会增加,这是一个驱动力,如何解决芯片的散热,以及芯片放在主板上,解决主办的散热,以及主办放在机箱里面,解决服务器机箱散热,接下来机房散热,相对已经比较成熟了,我们自己有专门的行间空调为每个机柜30千瓦的运动提供制冷,技术上是成熟了。

  CPU的发热功率也在增加,除了CPU之外,GPU目前做超算重要的应用,特斯拉系列已经做到2496核×2,4千多个核,将近5千个核,在一块主板也好或者GDU产品也好,GPU功率密度已经远远超过CPU功率密度,未来怎么解决?现在很难解决了,现在要把GPU卡插到主板上,机箱散热问题是服务部散热部门特别挠头的问题。

  除了从发展的角度看需求,还有的应用运行的角度,应用运行上来看,CPU真正的可供应的性能实际上由于散热技术不成熟,或者说我服务器机箱追求体积足够小,造成很多CPU的性能,在运行过程中无法完全实现出来,他有一套自己的保护机制,试着做,但是发现上去以后温度上去了,就会自动降频,如果温度不能达到设计要求继续降频,在超算里面,实际上我们买的是新能,我们买多少万亿次,买完以后,不一定能够跑出来,这是一个问题。恒定温度保持这个温度,如何把这个热量移走保持温度是问题。再有除了计算环节之外,实际上通讯环节,交换机也有类似的问题,对交换机来讲,现在我们实验室里发现很的的问题是温度对集成电路噪声容限有很大影响,从而的温度增加以后造成很大影响。通讯带宽也受制于温度。

  如果未来再发展,散热如何解?这是我们大家都在思考的问题,其实林总已经回答了液冷是非常好的解决办法,就是靠液体,而不是空气。空气是免费的,但是不是很好的散热介质。我这里做一个定义什么叫服务器风冷和服务器液冷。只要进入服务器里面冷却公质是空气就风冷,进入里面是水或者其他液体就是液冷,如果你需要既进水或者又要进空气,那就称之为混合冷,分类我的定义就是这样子,为了不混淆。

  液冷技术有什么优势呢?刚才林总讲了我不讲了,热冷密度高,戴尔它低液态公质来讲产生的直接性能。工质的驱动,传输的功率就会变小。我们用泵不用风机传输工质,泵的功率下幅减小。还有换热面积会大幅减少。我们用冷板很小就可以了,如果和空气进行交换,那你面积得很大,做成产品以后有什么优势呢,服务器能耗低,我现在还没有谈PUE,PUE是整个数据中心的指标,不是服务器的指标。PUE里面的基准是服务器的1,默认服务器是低,大家没有考虑1如何减少的问题,我们考虑1要减少。服务器液冷以后一方面泵的功耗小,还有一个重要的原因CPU以及其他的电路在温度比较低的时候,漏电流功耗都会降低,高温服务器是我们三年前,四年前曾经研究过的一个课题,后来放弃了,原因高温服务器能减少空调的能量,但是增加了CPU本身和主板本身能耗,所以我们放弃了。液冷解决服务器本身的数据,进入超算数据中心进去必须戴耳塞,否则会影响你听力,这是服务器液冷的优势,常见的工质有什么呢?有水、有油、有铜,有醚,很多热管用丙酮,当然也可以抽真空用水,30、40度就蒸发了,还有含氟的烃,现在无氟冰箱也是用含氟类的烃。

  浸没式的服务器一会儿我讲一下,这个液体可以进入主办泡进去的。

  风冷服务器与液冷服务器冷却系统,这会儿有数据了,冷却机房就是移到户外,那肯定要管线,上面风冷服务器,下面液冷服务器,服务器把热量给机房内空气,空气和空调空调叫空气调节机,和空调进行风和液体的交换,然后冷媒是液体,要么冷冻水要么氟利昂,穿墙到户外,再跟户外穿墙交换。刚才周经理谈到你可以跟户外湖水、江水等进行交换,那当然更好。液冷服务器就是把这这一段空气短路掉,可以直接进入户外,或者液体和液体交换之后连到户外,区别就在这里。

  这个液冷服务器技术带来相对的利益,比如PUE方面,冷却系统里面全年可以冷却,刚才林总讲过我不讲了,PUE很轻易的降低,1.4很轻易很轻易的,随便玩玩就是1.4了,现在我们北京三层QUBER(音),实测的TUE1.06(没有UPS是实验机)。基础设施设备投资会降低了,首先空调机没有了,空调内机没有了,空调冷风机组没有了,空调内机没有了,换热部件成本降低,整个系统冷却系统成本也会降低。主机房,服务器所在高架地板主机房极具减少。目前我们设计的液冷服务器,理论上计算200个千瓦/机柜,和5千瓦比就是40倍,意味着主机房的面积,可以减少到原来的1/40,原来4千平米的机房,100平米够了,另外对环境要求会显著降低,机房标准率,温度、洁净度。在某些情况下,我把主板放在液体里面,泡在缸里面,对机房环境没有任何要求了,尤其没有任何尘埃的要求,硫化物的要求,延误的要求都没有了,极大提高可靠性。这是液冷服务器带来的收益。

  液冷技术的分类,我分了两类,一类叫间接式,一类直接式,区别就在这里,发热部件,中间是液体,发热部件和液体不发生直接接触,而是同志间壁(传热的壁传热),这个壁通常是铜的或者铝的,刚才林总介绍的是间接式,我们那三层的QUBER也是间接式,还有一种是直接式,直接式就是把发热部件泡在液体里面,这样的话,这个热量可以直接转移到液体里面去然后带走,这是两种不同的,哪个更容易实现呢?目前来看上面更容易实现,下面实现起来困难,困难在哪呢?液体得选一个合适的液体,另外,你还要考虑我这主办怎么拿出来?拿出来的时候还不能泄露,是一个比较困难的事情,但是工程上的事情应该说都可以实现,只要我花精力,花这个钱,我准能实现,这是两种。

  接下来,我会分别做一些介绍。长远来看我们认为直接是未来,间接是过渡,未来五年里面间接式逐渐代替风冷,未来十年里面,直接式代替间接式,这个液冷代替风冷服务器趋势很明显了,在我们公司产品线里面,目前新开发产品都是风冷和液冷,用户反馈来讲,他们对液冷非常感兴趣。

  我着重介绍间接是,这是我们的产品,其中有一些细节跟大家做一些解释,TC4600E,这个E是风冷版加LP是液冷版,这个主板其实完全相同的,主板一样,背板一样,电源也是一样的,只不过原来放在这里的是散热器,现在改成冷板,所以液体冲进去转一圈走了,这个刀片本来是热插拔的,风冷板随便拔出来的,你可以热插拔,液体能不能热插拔,这是一个重大问题,拔出来漏不漏这是一个问题,其实我们可以有办法,比方说后面有阀门,拔出来可以拔掉,有防泄露接头可以自封闭,只要拔出来之后,滩簧把阀门关闭了,你可以轻易拔出来没有任何泄露,热插拔的技术,基于供应链,提供了那样的设备和部件,原来那是用在航天航空领域的。后面是分配器,相当于集水器和分水器,这样十个可以插在一个机分水里里面,名字叫做CDU,相当于PDU,这是冷板和后面的集分水器CDU的细部。

  从服务器的外观来看没有区别,只是多了两个快速接头,可以快速插拔无泄露水连接器,液体冲进去就是液冷服务器,由于我只对CPU进行冷却,所以还是要有风扇对主板上其他部件冷却,实际上是混合冷却的。

  装在机柜里面以后,设计是密密麻麻排的没有间隙,所以液体出来之后,会和另外一个集分水器连在一起,跟垂直PDU设计成一体了PCU,这儿既可以分出电,又可以分出水,有的用户说,我对水很怕,我们不怕。既然做液冷了,我们一定让他不能漏,所以里面水管和PDU电缆在一起的,在机柜后部的情况,实际上我们进入的是外部水和内部水,不是一套水循环,是两套,外部水和内部水交换,这个水到外部去,35度水我认为是冷水。这样可以做成整个机柜,整机柜目前配置22.5千瓦,仍然不算太大。

  从数据中心来看是这样的结构,液冷的部分和室外的闭式冷却塔连接,全国提供35度以下冷却没有问题的,可以在中国大部分地方,全年没有冷却压缩机,风冷还是要用空调的。

  泄露问题是液冷服务器用户首先要问的,漏了怎么办?首先我说它不会漏的,说这话的时候,我内心实际上是忐忑的,我以前是在APC,是做UPS的,UPS的意思是说,不间断电源,但实际上我们产品经常会宕掉,就会断电,所以任何一个产品肯定有故障率的,只不过我在设计的时候,试图避免发生故障,我们有一些预防性措施,冷板来讲两个地方会漏,普通器件由于压力过高爆了,第二个连接处连接不牢泄露,两个可能。怎么防止他爆你加压,出厂加3倍压力没吧,那我认为正常的时候肯定不会爆,这是一个办法。另外所有接头的地方做了特殊处理,接头我们甚至用做10倍的压力。另外万一万一漏了怎么办?这里面是水,水对主办是有损坏的,实际上我们做实验过程当中经常发生泄露,发生事故好多次了,我们有一套负压动态防泄露,我检测它漏之后马上抽负压,同时关机,服务器宕掉怎么办?那我这儿坏掉了只能宕掉,起码保证不会产生次生灾害,把主板给损毁,所以有一套机制,这样确保应该不太会漏。漏了也不会产生大的影响。另外我们有一些售后服务保险,漏了如果产生主板损坏我给你换。这是液冷里面一些技术。

  我们过去四年里面做的大量的实验,做了大量的研究,产生了将近100项专利,总之这个产品有很多优势,或者节能之类的不谈了,目前来看服务器风扇功耗降低70%,核温降低了20度到30度,降低核温以后,现在我们做超屏很轻易,所以计算性能可以提高20%,再有就是噪音噪声降低。

  从整个数据中心来看就是省钱,节能等不讲了。

  刚才大家看的视频三层机柜,基础设施在高压地板下 ,三层机柜是因为网络连接要求的,超级计算把所有计算节点连在一起计算,拼的是计算速度,连接就不能太远,所以没有办法,就只能往上发展,3D-Torus网络连接结构,所以就是组成这样的硅立方体,里面就是一个一个单元,中间风冷行间空调,服务器和节点是这样,就是这么一个结构。

  曙光间接式液冷技术的成熟实践已经产品化了,已经正式发布了,现在已经有大量定单了,这是在国内是比较早的产品化的一款液冷服务器。除此以外我们做其他的一些未来研究浸没式的液冷技术。

  我们和美国3M公司合作,我们和3M公司在国内有联合实验室和联合研发中心,我们一起研究他的液体。他的电气兼容性,首先要绝缘,现在我们把开关电源泡进去了,大概450伏到600伏,电气兼容性已经出来了,信号兼容性,高频信号在液体里面,计电长数不同会不会有影响?化学兼容性,会不会跟主板上电机电容电阻发生化学反应,发生腐蚀?化学稳定性,会不会用一段时间以后变质?对人体的毒害性,有没有毒害?环保性,对大气有没有温室效应?幸运的是我们用了这一款液体,这些性能似乎都满足这很不容易,接下来我们现在做的是一些其他的设计,我们的主板可能要重新设计完全不一样的主板,现在大家见的主办很大,空间很大的,因为要放散热片,所以留了很大的空间,实际上我们现在设想,这样的全浸式的冷却情况下,可以刀片离的很近,原来宽度放十个刀片,实际上我们可能放30个刀片很近。

  现在我们有申请了一些专利,这是一个圆形机,6U服务器机箱里面放40个刀片,这个刀片已经没有壳了,密密麻麻罗板,开仓怎么办?怎么拿出来,我们设计一套机制,像CD机,CD Plear多盘的,主板里面可以拿出来做检修做更换做升级。PUE可以很建筑的降到1.0,目前我们做了测试,开关电源也可以加进去,所以整个所有的部件实际上都可以集中在这个箱子里面,他和外面的连接很简单了,一个冷媒,一个是电源,而对周围的环境没有影响,因为我是密封的,他要求密封,我们认为浸没式将来可能会显著的改变数据中心的建设模式,可能不再需要那么大的楼了,我只可能需要一个地下车库,随便一个地方,我圈起来全放进去就可以了。

  我的介绍就到这里,谢谢大家!

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/20151126/n317575095.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
转载声明:凡注明来源的文章其内容和图片均为网上转载,非商业用途,如有侵权请告知,会删除。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片