机房360首页
当前位置:首页 » 会议/培训/展会 » 百度数据中心李孝众:“百度数据中心预制模块化之路”

百度数据中心李孝众:“百度数据中心预制模块化之路”

来源:机房360 作者:DJ编辑 更新时间:2016-4-25 17:07:05

摘要:我们面临了什么问题?或者说为什么要做预制模块化?

  李孝众:各位专家,各位朋友下午好!我是来自百度的李孝众,主要负责百度自建的阳泉亦庄数据中心机电系统技术架构,2015年阳泉数据中心实际上跑出来的PUE是1.22。我今天分享的技术是下一站,现在我们正在阳泉二期、阳泉三期、亦庄一期正在实施,或者已经实施的主流技术,我们相信采用这个技术出来建造数据中心的PUE,应该比1.22会好很多。

  我们面临了什么问题?或者说为什么要做预制模块化?这是百度过去十多年服务器增长的量,我们看到随着移动互联网、大数据或者云计算业务的兴起,我们对服务器资源的需求呈现一个非常快速的增长。我在百度这几年,曾经有三年的时间,每年服务器的增量都是过去的存量之和。到2015年的数据实际上也是有这么高的量,在2011年之前百度才几万台服务器,现在已经是几十万台服务器的规模了。所以我们遇到的第一个挑战,就是我们服务器的数量增长非常快。除了云计算之外,我们现在业务的变化也非常多,有大家熟悉的百度网盘,这样的设备是用的冷存储,平均EU用电量只有一百万。还有百度语音输入法,需要异构计算的服务器做训练,这种服务器效率比普通服务器能提升40倍,另一方面它的用电量非常大,1U的空间内能达到三四百瓦,我们用到服务器的用电范围非常大。

  相应的IT设备对数据中心提出了一些新需求,就是我们需要快速的部署,我们一年增加十万台服务器,对数据中心的要求是要非常快速的能部署,随需而变,我们这个数据中心要求能适应这种变化。然后是质量可控,TCO最优。

  传统的数据中心存在很多问题,首先它的建设周期非常长,百度阳泉的数据中心从2012年年初开始规划,一期到2014年9月份才正式投产,差不多用了两年半的时间。从规划到设计,到实施,一直到测试,最后投产这个周期非常的长。另外一个方面是之来不可控,这几张图片都是我们在租用的数据中心,或者是阳泉一期采用常规方案遇到的一些实际问题。比如说这张图片,我们的服务器到了机房之后发现装不进去,因为有误差。下面这张恰恰相反,通道封闭的空间漏风非常大,对实际PUE的运维降低是非常不利的。

  弹性不说了,成本的话大家可能没有这个概念。十万台的服务器,对计算密集型的,功率相对比较高的,如果PUE是1.6的话,每年的用电量是4.2亿度。如果我们把PUE降到1.2,每年就会节省1亿度的电,这个量非常可观。所以面对这些问题我们有什么解决方案呢?看看国内外的互联网公司在做什么。谷歌在2005年,微软在2009年都推出了集装箱的数据中心,百度随后也推出了两个集装箱数据中心,但是这不是超大数据中心的主流。百度2013年做了预制化模块的研发,腾讯、微软在2009年推出的。IDC公司业务发展到一定程度,服务器的数量大到一定程度的时候,不约而同的都会走到预制化的方向上。

  所以呈现了一种什么趋势呢?就是数据中心的建设正在由工地前移到工厂。它有什么特征呢?就是预先设计,这种数据中心需要做出DEMO来,搭建出来做测试。最后才在工厂生产出来运到我们的现场进行组装,它的收益非常明显,快速部署、质量可控、性能可预期。预制模块化从功能的角度,我们把它分成四种类型,一种是ICT的模块,这对应传统数据中心机房内的部分。机房内有什么呢?有空调的末端,有配电的末端,有服务器的机柜,有通道封闭的一些设备。还有电力模块、制冷模块、以及建筑模块。另外从外观的特性来看,会有一些集装箱,室外封闭型,室内封闭型等等这样一些类型。

  百度在做预制化的时候我们从哪儿入手呢?我们会从电力模块还是制冷模块入手呢?我们考虑了一下,我们还是先从ICT模块入手。为什么呢?电力模块只是把一些传统的电力设备在工厂预制完,这虽然能提升一些质量,提升可靠性,但是它降低不了我们的TCO,因为它就是传统的一些设备的组合。最有可能做文章的就是在IT端,在服务器端。百度最早是2011年投入的北京M1数据中心,有1.5万台以上的数据。后面我们也做了高压直流的后备电源,这方面我们也做了一些探索,但是这个都是在IT端,说白了IT侧必须能配合这样的一些应用,所以我们也把我们的注意力聚焦在了IT端,看看IT端能做出什么样的一种革新。

  这就是我们提出来的顶置空调型蜂巢预制模块,这个想法来自哪儿呢,就是我们发现数据中心的PUE如果1.6的话,可能有0.2以上是在冷源侧。冷源侧的PUE怎么降低呢?我们是提升水温,把冷冻水的温度由72提高到10/15,15/21,阳泉的数据中心已经跑到19.5/25.5了,这样利用自然冷却的时间已经达到了92%以上,我们在冷机侧PUE占比已经占到了0.03以下,但这不需要在这边做工作。我们再分析PUE其他占比,比如说传统数据中心UPS的损耗,占比应该在0.15左右。这是因为负荷率没有那么高了,刚才华为的张总也提到了,大部分数据中心的负荷率非常低。我们自己的数据中心能把负荷率提升到一个合理的位置,但是这部分的损耗,我们采用一路视电之后可以达到0.05左右,这部分也不需要在内部做文章了。

  最后我们再看一下还有什么占比比较大呢?水循环系统的占比其实不太好减,我们到另外一个空调大户就是末端,空调末端占PUE的占比是0.03—0.1之间,也有人这样说。我们数据中心查了一下差不多是0.05—0.1,所以如何消除这方面的能耗?我们就想出了一个零功耗顶置空调的模式。就是把空调的场馆放在了机柜上方,热空气有一个自然的上升作用。通过空调盘管降温之后再从服务器侧端吸入,整个服务器的供电系统和散热系统都是百度自己研发的,它的风扇可以和盘管有一个协调的配合。空调末端这部分的能耗几乎可以忽略,这是我们2013年提出来的想法,做了CFD的仿真模拟,发现是可行的。2014年上半年我们找了三个供应商,在场地打出DEMO,进行上线测试,我们也把自己16台整机服务器运到现场做测试,发现跟模拟是一致的,最后在2014年的9月份开始部署,到2015年我们在阳泉的二期数据中心已经完全上线了。

  这是我们预制模块安装的步骤,我们预制模块的发展,现在看起来是经历了三代。其中第一代解决有还是没有的问题,第二代就是2015年做的工作,对这个系统做了更多的优化,做了一些标准化的工作。包括抗震的测试,我们把这么大的预制模块放在地震台上,做抗震的测试,水放在上面还是非常危险的,但是做这个测试完全OK。第三代我们现在正在实施的,我们现在看起来还是有点复杂,我们正在做它简化的一个工作。未来ICT的模块我们还在不断对它进行精简,基础设施刚才提到的电力和制冷的模块,我们也在做研究。第三步我们也会考虑建筑的预制化,谢谢大家!

  责任编辑:DJ编辑

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/2016425/n977081129.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片