全球最高计算密度AI服务器诞生记_机房360

摘要：　“所有产品的设计，都是由繁到简，再由简入繁的过程，当我们透过现象看到本质，产品的架构也就慢慢浮现在眼前。”

　　在极客眼中，做技术，是件浪漫的事儿。

　　因为它总是指向极致和探索。

　　在服务器设计者手中，产品就像被技术打磨完成的艺术品，被倾注了细心、耐心和想象力。

　　今天我们邀请到“绝不浪费一点空间”的浪潮Geek艺术家张海龙老师，来聊聊全球最高计算密度AI服务器AGX-2如何挑战空间极限。

　　“所有产品的设计，都是由繁到简，再由简入繁的过程，当我们透过现象看到本质，产品的架构也就慢慢浮现在眼前。”

　　Ⅰ. 一个难题的八方需求

　　事再多，一件一件做

　　2020年，有句话叫做："ABC"正在对"D"产生深刻影响。这并不是一句绕口令。

　　以A(AI人工智能)、B(BigData大数据)、C(Cloud云计算)为代表的新一代信息技术的兴起，推动D(DC数据中心)的变革。其中，AI正在以超出预想的速度发展。

　　随着AI服务器在数据中心中部署规模的增大，一方面会引发数据中心一系列变化，无论是内部设计还是整体布局。另一方面也对AI服务器计算密度提出了更高要求。目前AI服务器产生的热能是传统CPU服务器数倍，如果一个机架可以放十几台普通服务器，同样空间下就只能放两台AI服务器。

　　哪里有困难，哪里就有需求。

　　哪里有需求，哪里就有解决办法。

　　目标 /

　　在2U空间内设计出一款同时支持8个NVLink互联或PCIe3.0接口的GPU服务器(命名为AGX-2)

　　初始条件 /

　　2U机箱、总长度不能超过900mm、需同时支持8*NVLink互联GPU或8*PCIe3.0GPU两种不同搭配、1+1电源冗余设计、电源功率为3000w、GPU模组必须有独立维护设计、实现GPU板/主板的单独维护性

　　需求模式

　　客户需求：安全稳定、方便维护、高端大气、物美价廉

　　测试需求：稳定强壮，满足所有测试需求

　　生产单位需求：组装方便，组装方便，组装方便!重要的事情说三次

　　产品经理需求：功能全部实现，交付绝不拖欠

　　采购需求：我们是成本的代言人…

　　DFX需求：模组方便拆装，螺钉种类和数量较少…

　　... ...

　　对于服务器技术人员来说，服务器架构设计是一个重点，也是一个难点。一方面要考虑服务器内部架构和外观。尤其是前者，包括CPU、硬盘容量、主板扩展功能、电源容量及冗余等，这些硬件的空间设计要充分考虑到兼容性、稳定性和扩展性。另一方面也要基于整个项目，做价格以及更多需求的考量。

　　一个起点，就是“八方需求”，难度可想而知。

　　Ⅱ. 诞生于风暴式构思的架构

　　胆大心细，服务器空间艺术要领所在

　　在众多需求中理出头绪，需要先找到关键问题，然后重点击破：

　　2U产品，总深度<900mm，2种GPU形式，共用同一个机箱底座

　　强度满足带卡出货需求，相应机械测试无比PASS(机械冲击、包装跌落、裸机振动等)

　　维护方便、成本控制......

　　经过一次次头脑风暴的梳理，我们发现了此次设计的两个关键问题：电源位置和GPU模组设计。

　　√ 电源位置

　　如果按常规设计，2U机箱中两个电源会上下叠加摆放在机箱后部，但是这样会占用PCIe形式的GPU卡摆放空间。多种位置尝试后，我们启用了一种大胆的方案：将电源模组前置并放置在机箱两侧。虽然它增加了机箱侧壁的理线工作(需在机箱侧壁走两根强电电源线，把机箱尾部电源插座与前方电源模块连接)，但完全解决了机箱内各模块摆放位置这一核心问题。

　　√ GPU模组设计

　　怎么在如此有限的空间内设计出可支持8GPU的结构形式?这不是想出来的，而是算出来的。经过大量计算后，我们把PCIe形式的GPU卡按照每4个为一组，每组都采用共轭形式来摆放。而结果也证明了我们计算的准确性，这样摆放后机箱侧壁还分别能空余出2mm左右间隙。

　　这两个问题的解决让这款超高计算密度AI服务器，轮廓越来越清晰。

　　所有产品的设计，都要经历由繁到简，再由简入繁的过程，当我们透过现象看本质的时候，产品的架构也就慢慢浮现在眼前。

　　Ⅲ. 无数意料之外造就的极致

　　纵然被虐千百遍，仍爱之如初

　　架构诞生后，接下来就是机构设计工程师公认最痛苦的环节：建模。

　　在将需求转化为实际的图纸过程中，总是会遇到各种各样意料之外的问题，在这个过程中，会感受到新增问题的绝望、想到方案的欢喜、以及下个问题正在路上的五味杂陈。

　　按照架构分析过程中确定的方案，将电源模组分别摆放在机箱前端两侧，然后是主板、风扇模组、Busbar等。最后根据计算结果，将4个PCIe形式的GPU卡分别摆放在固定支架两侧，每侧两个且两侧方向相反，在固定支架的侧分别设计一个Riser卡，用于GPU卡数据传输。同时，在固定支架前后两端分别设计一个提拉结构，完美解决了拆卸问题。

　　建模后，再利用有限元分析(FEA)技术对产品进行仿真分析，得出机箱的合理受力点、凸包分布情况和形状等。

　　最后，是一项具有视觉冲击力的工作：ID设计。作为设计工作的最后一环，它让之前的所有反复思量和推翻重建有了一个完美收官作品。

　　密度与性能的平衡一直是服务器产品所追求的一种境界，如何在保证性能不变的同时，提升硬件的单位密度成为考验硬件厂商设计功底的核心问题。而极限设计也是每个机构工程师不断追逐的目标，当空间利用到了极致，产品便像极了艺术品。

　　AGX-2目前是全球计算密度最高的AI服务器，2U空间内搭载8颗最强GPU的AI超级服务器，帮助AI计算性能提升可高达40%以上。现在它已经广泛用于金融、电子、科研等领域。

　　责任编辑:张华

JIFANG360.com - 机房360

全球最高计算密度AI服务器诞生记