大型机房体系方案规划设计_机房360

摘要：纵观现有的众多的高可用性数据中心，每个数据中心的设计和运营模式都大相径庭，但在很多方面却又存在着相似的问题。通过整合各类数据中心的数据、反馈和目标，我们希望促进并协助设计或改进数据中心的过程。

一、大型机房的体系建设

时间会让人忘记欢乐，也会让人忘记忧伤，而2008年注定让多数中国人记住，让这一年注定在历史上浓墨重彩。就在我们刚刚沉浸在举办奥运会的无上荣光之中，时光又把金融危机摆在我们的门前。就在全球金融界都在讨论布雷顿森林体系得失的时候，数据中心（国内多数指大型机房）的研究人员也正忙于为数据中心寻找一个终极的解决方案，但是我们是否也像金融界人士一样，忘记了体系本身应该具有的功能和特点，一味的寻求着某一种解决方案，能够在一瞬间解决数据中心永远的发展问题，或者试图证明我们对今后几年的数据中心能够做到准确预测。

在这种“终极解决方案”出现之前，我们还是先审视一下体系这个现阶段很有用的名词。在审视之后，或许我们会大为失望，很多国外的数据中心还没有建立一套类似金融领域中布雷顿森林体系那样精确的整体机房体系。而国内的大型数据中心甚至沉醉于系统的建设，而不是体系建设。这有些像人与自然之间的关系，人类一开始准备提出改造自然，但时光流转至今日，变成了回归自然，天人合一。人类试图通过种树来建立森林，规定这里种松树，那里种柏树，然结果并没有出现森林。然后人类放弃了退出了这个区域，几年以后回到原地，发现森林已经自己长好了。因此我们有必要以大自然为师，学习一下森林体系法则，从而找到我们的整体机房森林体系法则。

那么大型机房的体系建设究竟应该如何理解呢？这里借用《IT系统基础物理设施论文集》一书中“数据中心统筹设计技术”一文中的“统筹设计技术”概念来诠释。该文章明确的指出“在计算机界最近进行的一次调查中，参加者被要求说出所在公司正常运行时间的最低要求。针对这一问题，大约有 25% 的人回答他们最低的要求是 99.999%！由此不难看出，为什么现在大部分企业数据中心都将系统可用性看成是最主要的设计因素。但与此同时，从业者和设计人员却很难确定针对每个公司的 “理想设计”。之所以倍感棘手，其中涉及到诸多原因。首要原因当属数据中心较长的使用寿命。一个数据中心有可能维持十年甚至更长，设计人员通常不会介入如此长的时间，来获得确定如何改进设计所需的反馈。

与此同时，诸如微小的设计缺陷加上低劣的操作程序等各类因素也会引发很多问题。最终，也许正是由于人们对这方面了解不够致使改进设计工作遇到困难。我们只有边做边学，将从修建上一个数据中心的过程中积累的经验，应用到修建新的数据中心，并加以改进。

“纵观现有的众多的高可用性数据中心，每个数据中心的设计和运营模式都大相径庭，但在很多方面却又存在着相似的问题。通过整合各类数据中心的数据、反馈和目标，我们希望促进并协助设计或改进数据中心的过程。”显然我们现在建成的数据中心在图纸阶段并没有太多的引入统筹设计，一个看似简单但却操作难度极大的必要过程。这一方面是能在NCPI（网络关键物理设施）层面提供严格意义上的“统筹设计”的公司在全球范围内也是凤毛麟角，这样的公司需要在NCPI层面具有完整的产品研发能力，同时关于数据中心的工程管理具有丰富的实践应验。另一方面是国内尚缺少国际上TIA-942标准那样的全面对数据中心进行可执行性规定的规范造成的。

二、构建大型机房的几个核心要素

第一项法则：模块化

让我们回顾上面的故事，森林在没有外力（人类）的介入下，自我完成了建设和发展的全过程，因此我们这里就得出了体系的第一个法则“自成系统能力”，自成系统能力是指不在其他外力的前提下，实现自我的功能。这种自成系统能力成为我们的数据中心森林体系的第一法则，我们给它起个通俗的名字，叫“模块化”。

之所以把自成系统能力通俗为模块化，让我们再举一个例子:曾经有一个世界著名的建筑师要建造一个博物馆，当人们看到他建造的模型时都大失所望，那就是几个立方体，而且完全一样，但是建成以后，人们发现在这些立方体使用起来十分好用，既可以展示老爷车、名画，甚至你把整列火车进行展览，它也能做到！我就是我们说的广义上的模块化，这个模块化设计必须深入每个设计者的骨髓，然后才能超脱成为大师。而狭义上，模块化也可以理解成一个产品或系统。但这个产品或系统必须是不依赖其它系统的支持，就能够完成一个功能的，否则它就不够模块化！

当前的信息系统毫无例外的都要求必须有连续工作的功能，大型数据中心通常要求其基础物理设施能有5个9到6个9的可用性，也就是说，在一年中平均不可用时间要限制在5至6分钟以内。系统设备故障是不可避免的，这就规定了该系统必须是个可修复和可快速修复的系统，而可修复和可快速修复的系统又规定了该系统必须是模块化的，也就是说，系统中的所有设备、器件和环节都必须是可快速修复的模块。以供电设备为例，一台UPS和一条电缆，它们都有自己独立的功能，组成系统时，从工作方式到物理空间，都要保证他们是可快速修复、可移动、可更换、可扩容的。一条电缆铺设好并投入运行后，如果它是很难维护更换的，那么它就不具备模块化功能，当这条电缆被老鼠咬断或因系统扩容需要更换时，整个系统预期可用性就成为泡影，一条人们认为最简单最可靠的电缆就会使系统瘫痪。这就是我们把“模块化”作为构建大型机房第一法则的原因。

第二项法则：适应性与可扩展性

适应性可以定义为系统适应变化的能力。适应变化涵盖许多方面 – 包括按时安装系统，特别是对于时间受限制的项目（部署速度）；根据业务需求的变化扩展系统大小，同时最大程度地减小系统庞大造成的浪费；还包括迅速适应企业 IT 需求所要求的不断改变的能力（重新配置的能力）。由于缺少适应性而导致失败的典型企业示例是许多大型设备管理公司。这些公司投入大量资金来开发稳固的高安全性基础设施，他们认为其潜在客户需要使用这些设施来托管关键的 IT 设备。由于他们的系统无法适应业务需求的变化，所以要根据“最棘手的情况”来计划其系统容量。为了能应对各种假设情况，公司不得不投入巨大的工作量。结果只能是未使用的基础设施的巨大浪费以及资金的捉襟见肘。

适应性是企业价值这一难题的重要方面 – 就发挥最终投资的效益而言，它与其他企业价值成分一样重要。如果 NCPI 投资基于当前需求进行实施，并且可以适应地适应将来的任何需求（而不是提前预测未来十年的情况），那么就可以消除预测错误的风险并可以最大程度地得到投资回报。

第三法则总拥有成本（TCO）

大多数管理者都清楚总拥有成本 (TCO) 的含义 – 它是切实花费的资金。特定数据中心的 TCO取决于设施的规模。但是，完全可以使用一种对各种规模的数据中心都可行的方法来表示总成本。一种表示 TCO 需求的建议方法是按数据中心生命周期内每个机架的总成本来计算。每机架 NCPI 的生命周期成本的平均值是 $100,000 美元。与 IT 设备投资成本相比，这是相当大的投资，因此管理者了解该成本能够带来的价值十分重要。

TCO 不仅仅是 NCPI 的初始投资，它还包括在其生命周期（通常为 10 到 15 年）内对运营和维护等相关方面投入的所有其他成本。在今天充满竞争的业务环境中，应该非常明确，真正决定企业价值的是 TCO，而不仅仅是最初的成本。图 1 说明了使用传统系统实现的数据中心的典型成本项目比例。

图 1– 传统系统的 TCO 成本项目比例

在这些成本中，大约 50% 为运营支出，50% 为资本性支出。而且这个总数的很大一部分（约为 30%）通常都因规划与设计决策不当而浪费了。

过度规划是 TCO 超支的最主要因素。这导致了巨大的浪费，包括额外的投资成本、运营成本，特别是能源成本。平均来说，有超过 50% 的已安装 NCPI 容量被浪费了。虽然这些浪费主要是由于不确定性引起的，但是也不能简单地通过降低计划容量来解决问题，因为运营中肯定会有实际负载等同或超过期望负载的情况，而数据中心容量不足的后果要比容量过多的后果严重得多。优化 TCO 的真正关键在于实施从设计上即具有简便扩展能力的 NCPI 解决方案，这样在需要时可以适当调整基础设施以适应在数据中心寿命期间任何特定时间点上的需求。对于实际负载永远都不会超过 300 KW 的环境，没有人会希望扩建一个兆瓦容量的数据中心。

三、关键设备产品的选择

供电系统的选择

电源系统的选择在大型数据中心的建设中往往是最关键的部分。这主要是因为电源系统的建设和升级维护直接对数据中心产生长远的影响。规划设计中电源系统决定了我们能够使用多少服务器，数据中心建成以后，电源系统直接影响运行成本，根据国外的统计，随着刀片服务器的推广，数据中心中用于服务器的采购和服务器运行后有效生命周期内所消耗的电能比起来，简直小巫见大巫，这一点可以参考《IT系统基础物理设施论文集》中数据中心设计中存在的事实与误解一文中的第一条热力学定律的描述，节能和同时保证电源系统的安全就成为了CIO们在现阶段遇到的头等难题。

因此，电源系统的选择就应该符合系统模块化、适应性、可扩展性的几个要素。要做到配电系统全线达到三个法则，主要有两种途径，一个是选用的每个产品自身就具有模块化设计、适应性设计和可扩展性设计，另一个途径就是自身没有做三法则设计的产品整体进行冗余。显然后者的设计有显著的不足，它需要其他系统提供更大的空间、温湿度洁净度等环境场地条件，造成初期投入的大幅度增加，而且一旦整个系统需要升级，可能以前的冗余并不能够迅速满足。

因此，电源产品的选择应该走第一条的设计之路。选用自身进行了冗余设计的产品。这样的设计会带来两个好处，一个是我们可以真正有效的按照我们需要的负荷选择配电系统的规模，当我们需要增加时，只需要增加模块就可以了。第二点是冗余设计的产品多数具有方便维护的特点，比如UPS，经过冗余设计的UPS实际上更容易理解是多个小UPS组成的，我们需要升级或更换其中一个产品时，并不对其他的在线部分产生影响。

应该讲配电系统中最难做到三法则的环节是线缆和线槽的敷设。当机柜的位置发生变化的时候，对应的插座和线槽敷设可能是固定的，这样配电系统就不符合模块化的法则。目前配电系统中的领军者施耐德、西门子已经在数据中心倡导使用智能母线系统，布线被分成了一个个模数的单元并且可以根据需要做控制，可以算这方面十分有益的尝试。

空调系统选择

精密空调在数据中心出现很长时间内都没有出现过挑战，多数90年代建成的大型数据中心均采用了冗余设计的精密空调体系，区别只是冗余度的不同，多数是N+1或N+2冗余，1或2代表其中一台精密空调的容量，N则是总制冷量。但这一切随着未来刀片服务器的大量运行，可能发生根本性的转变。我们把截至到2004年建成的数据中心姑且算做传统的数据中心，传统的数据中心的热负荷计算是按照机房环境场来设计的，对于刀片服务器所产生的单位机柜内5KW~30KW的发热量没有加以考虑。这就产生一种现象，工作人员测试数据中心内的环境温度符合国标的要求，但是放置刀片服务器的机柜内部温度却居高不下。

因此，如果我们希望在数据中心的空调设计上具有一定的前瞻性的话，就必须综合考虑两方面的需求，一方面需要把环境温度降下来，满足普通业务的需要，另一方面需要设计高热密度区域，为未来做好准备。所以，我们在空调的选择上比照以前多了一个任务，就是必须同时选择高热密度机柜级空调，比如美国APC公司推出的InRow系列产品、艾默生的SDO系列产品均是十分有益的尝试,但SDO产品似乎需要使用在比较高的空间内且需要固定在天花板上，不能算完全的做了适应性设计和模块化设计。同时对环境温度、湿度、洁净度控制做传统的精密空调选择。

机柜级高密度空调的选择上应该注意以下几点：

第一是否是解决机柜内空气循环的，有些产品是通过在机房环境内加强制通风来试图解决机柜问题，可能造成环境内的噪音和乱流。

第二个是不是能做到对机柜内部的实时温度监控，这将决定该款产品是否是节能的，刀片服务器不会总在满负荷运行也不可能总在低负荷运行，产品是否能灵活处置。

第三个是不是跟机柜的模式匹配，能够像增加机柜一样灵活布置。机柜多数采用600mm或800mm前后面板，深度则在900~1400mm区间，高度在2000mm左右，数据中心的空间三维的设定也是根据这个尺寸而来的，如果我们选择的空调产品需要另外增加数据中心的高度，比如制作很多的风道、需要悬挂等等，都会在升级或维护时造成诸多的麻烦，也就是违背我们前面说的适应性法则。空调产品可能是节能高效了，但是需要更高的空间，需要在升级是对楼面进行破坏，那么可能我们在气体灭火保护系统中就需要贮备更多的药剂，在升级时就需要做加固或防尘保护处理。

第四个是进行机柜真实的送风温度监测，而不是仅监测空调的回风温度。空调能够为机柜提供的真实送风温度才是机柜内服务器能够得到的有效温度。而过往只对回风温度检测，造成热空气在环境场内的损耗被忽略。

四、总结
　　做好数据中心的体系建设，运用统筹设计的方法论,严格遵循全过程的三原则设计法则指导我们设计大型数据中心的全过程，可能是我们在现阶段所能采取最为切实的设计理念，正确的选择设计的方式应该是一个成功设计必然具备的条件，同时如果我们真的这么做了或许生活在金融危机最严重的时光中的IT从业者们可以早一些看到冬日里的阳光。

JIFANG360.com - 机房360

大型机房体系方案规划设计