机房360首页
当前位置:首页 » 厂商动态 » 全球最高计算密度AI服务器诞生记

全球最高计算密度AI服务器诞生记

来源:百度百家 作者: 更新时间:2020/7/17 10:29:05

摘要: “所有产品的设计,都是由繁到简,再由简入繁的过程,当我们透过现象看到本质,产品的架构也就慢慢浮现在眼前。”

  在极客眼中,做技术,是件浪漫的事儿。

  因为它总是指向极致和探索。

  在服务器设计者手中,产品就像被技术打磨完成的艺术品,被倾注了细心、耐心和想象力。

  今天我们邀请到“绝不浪费一点空间”的浪潮Geek艺术家张海龙老师,来聊聊全球最高计算密度AI服务器AGX-2如何挑战空间极限。

  “所有产品的设计,都是由繁到简,再由简入繁的过程,当我们透过现象看到本质,产品的架构也就慢慢浮现在眼前。”

  Ⅰ. 一个难题的八方需求

  事再多,一件一件做

  2020年,有句话叫做:"ABC"正在对"D"产生深刻影响。这并不是一句绕口令。

  以A(AI人工智能)、B(BigData大数据)、C(Cloud云计算)为代表的新一代信息技术的兴起,推动D(DC数据中心)的变革。其中,AI正在以超出预想的速度发展。

  随着AI服务器在数据中心中部署规模的增大,一方面会引发数据中心一系列变化,无论是内部设计还是整体布局。另一方面也对AI服务器计算密度提出了更高要求。目前AI服务器产生的热能是传统CPU服务器数倍,如果一个机架可以放十几台普通服务器,同样空间下就只能放两台AI服务器。

  哪里有困难,哪里就有需求。

  哪里有需求,哪里就有解决办法。

  目标 /

  在2U空间内设计出一款同时支持8个NVLink互联或PCIe3.0接口的GPU服务器(命名为AGX-2)

  初始条件 /

  2U机箱、总长度不能超过900mm、需同时支持8*NVLink互联GPU或8*PCIe3.0GPU两种不同搭配、1+1电源冗余设计、电源功率为3000w、GPU模组必须有独立维护设计、实现GPU板/主板的单独维护性

  需求模式

  客户需求:安全稳定、方便维护、高端大气、物美价廉

  测试需求:稳定强壮,满足所有测试需求

  生产单位需求:组装方便,组装方便,组装方便!重要的事情说三次

  产品经理需求:功能全部实现,交付绝不拖欠

  采购需求:我们是成本的代言人…

  DFX需求:模组方便拆装,螺钉种类和数量较少…

  ... ...

  对于服务器技术人员来说,服务器架构设计是一个重点,也是一个难点。一方面要考虑服务器内部架构和外观。尤其是前者,包括CPU、硬盘容量、主板扩展功能、电源容量及冗余等,这些硬件的空间设计要充分考虑到兼容性、稳定性和扩展性。另一方面也要基于整个项目,做价格以及更多需求的考量。

  一个起点,就是“八方需求”,难度可想而知。

  Ⅱ. 诞生于风暴式构思的架构

  胆大心细,服务器空间艺术要领所在

  在众多需求中理出头绪,需要先找到关键问题,然后重点击破:

  2U产品,总深度<900mm,2种GPU形式,共用同一个机箱底座

  强度满足带卡出货需求,相应机械测试无比PASS(机械冲击、包装跌落、裸机振动等)

  维护方便、成本控制......


  经过一次次头脑风暴的梳理,我们发现了此次设计的两个关键问题:电源位置和GPU模组设计。

  √ 电源位置

  如果按常规设计,2U机箱中两个电源会上下叠加摆放在机箱后部,但是这样会占用PCIe形式的GPU卡摆放空间。多种位置尝试后,我们启用了一种大胆的方案:将电源模组前置并放置在机箱两侧。虽然它增加了机箱侧壁的理线工作(需在机箱侧壁走两根强电电源线,把机箱尾部电源插座与前方电源模块连接),但完全解决了机箱内各模块摆放位置这一核心问题。

  √ GPU模组设计

  怎么在如此有限的空间内设计出可支持8GPU的结构形式?这不是想出来的,而是算出来的。经过大量计算后,我们把PCIe形式的GPU卡按照每4个为一组,每组都采用共轭形式来摆放。而结果也证明了我们计算的准确性,这样摆放后机箱侧壁还分别能空余出2mm左右间隙。

  这两个问题的解决让这款超高计算密度AI服务器,轮廓越来越清晰。

  所有产品的设计,都要经历由繁到简,再由简入繁的过程,当我们透过现象看本质的时候,产品的架构也就慢慢浮现在眼前。


  Ⅲ. 无数意料之外造就的极致

  纵然被虐千百遍,仍爱之如初

  架构诞生后,接下来就是机构设计工程师公认最痛苦的环节:建模。

  在将需求转化为实际的图纸过程中,总是会遇到各种各样意料之外的问题,在这个过程中,会感受到新增问题的绝望、想到方案的欢喜、以及下个问题正在路上的五味杂陈。

  按照架构分析过程中确定的方案,将电源模组分别摆放在机箱前端两侧,然后是主板、风扇模组、Busbar等。最后根据计算结果,将4个PCIe形式的GPU卡分别摆放在固定支架两侧,每侧两个且两侧方向相反,在固定支架的侧分别设计一个Riser卡,用于GPU卡数据传输。同时,在固定支架前后两端分别设计一个提拉结构,完美解决了拆卸问题。


  建模后,再利用有限元分析(FEA)技术对产品进行仿真分析,得出机箱的合理受力点、凸包分布情况和形状等。


  最后,是一项具有视觉冲击力的工作:ID设计。作为设计工作的最后一环,它让之前的所有反复思量和推翻重建有了一个完美收官作品。


  密度与性能的平衡一直是服务器产品所追求的一种境界,如何在保证性能不变的同时,提升硬件的单位密度成为考验硬件厂商设计功底的核心问题。而极限设计也是每个机构工程师不断追逐的目标,当空间利用到了极致,产品便像极了艺术品。

  AGX-2目前是全球计算密度最高的AI服务器,2U空间内搭载8颗最强GPU的AI超级服务器,帮助AI计算性能提升可高达40%以上。现在它已经广泛用于金融、电子、科研等领域。

  责任编辑:张华

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/2020717/n8345131245.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片