Facebook「下一代 AI 计算平台」长什幺样子?


2020-06-07


Facebook「下一代 AI 计算平台」长什幺样子?

Facebook 于日前公开「下一代」AI 模型训练硬体平台 Zion,也一起介绍了另外两类计算的自订化 ASIC(应用专属积体电路)晶片:用于 AI 推理的 Kings Canyon,以及用于影片转码的 Mount Shasta。这些新设计主要针对 AI 推理、AI 训练、影片转码三类计算。这些计算不仅负荷重、切换为专属硬体的提升明显,而且也是 Facebook 快速扩大的服务类别。

从当代 AI 硬体到下一代 AI 硬体

Facebook 早就开始大规模部署 AI 模型用于业务计算,这些模型每天要做超过 100 兆次预测及超过 60 亿次语言翻译。Facebook 用来辨识、分类内容的影像辨识模型也使用超过 35 亿张影像训练。各种使用 AI 的服务帮助用户日常沟通,也为他们提供独特、个性化的使用感受。

Facebook 自研的 AI 平台 FBLearner 管理 Facebook 目前大多数 AI 模型流水线。FBLearner 包含储存特徵、管理训练过程、管理推理引擎等工具。另外,Facebook 也基于「开放计算计画」(OCP)设计硬体,和 FBLearner 配合使用,能让 Facebook 开发人员快速大量部署模型。

解决目前紧迫的计算规模问题后,Facebook 继续集中精力研发,最终目标是建立针对未来、可靠的硬体设计,不仅对供应商透明,同时也持续体现 Facebook 最大化执行效率的离散化设计理念。Facebook 的答案就是下一代训练、推理硬体平台。

用 Zion 进行 AI 训练

Zion 是 Facebook 的下一代大容量统一训练平台,目标是高效承担更高计算负载。Zion 设计时就考虑如何高效处理 CNN、LSTM、稀疏神经网路等多种不同的神经网路模型。Zion 平台提供高记忆体容量、高频宽、灵活的高速内部连线,为 Facebook 内部关键工作负载提供强大的计算能力。

Zion 设计採用 Facebook 新供应商透明 OCP 加速模型(OAM)。OAM 的作用在于,Facebook 从 AMD、Habana、Graphcore、英特尔、辉达等供应商购买硬体,只要他们以开放计算计画(OCP)的公开标準基础开发硬体,不仅帮助他们更快创新,也让 Facebook 自由在同一机架的不同硬体平台、不同伺服器间拓展,只需要透过一个机柜网路交换机。即便 Facebook 的 AI 训练负载不断增加、不断複杂,Zion 平台也能拓展处理。

具体来说,Facebook 的 Zion 系统分为三部分:八路 CPU 伺服器、OCP 加速模组、可装载 8 个 OCP 加速模组的平台主板。

Facebook「下一代 AI 计算平台」长什幺样子?

左为模组化伺服器主板,每个主机板可安装 2 个 CPU;右为 4 张主机板、8 个 CPU 组成一台八路伺服器。

Facebook「下一代 AI 计算平台」长什幺样子?

左为一个 OCP 加速模组;中为 8 个 OCP 加速模组安装在一个平台主板;右为组成一个含 8 块加速晶片的平台。

Facebook「下一代 AI 计算平台」长什幺样子?

Zion 平台内部模组连线示意图。

Zion 平台的设计得以解耦系统中的记忆体、计算、网路部件,然后每项都可独立拓展。系统的八路 CPU 平台提供超大 DDR 记忆体池,服务对记忆体容量有很高要求的工作,比如稀疏神经网路的内嵌表。对 CNN 或稀疏神经网路较稠密那些,对频宽和计算能力更敏感,加速主要就是依靠连线到每个 CPU 的 OCP 加速器模组。

系统包括两种高速连线线:一种互相连线所有 CPU ,另一种互相连线所有加速器。由于加速器有很高记忆体频宽和低记忆体容量,Facebook 工程人员想了一种办法高效利用总记忆体容量:划分模型和记忆体,比较经常存取的资料就储存在加速器记忆体,不常存取的资料储存在 CPU 的 DDR 记忆体。所有 CPU 和加速器之间的计算和通讯会平衡进行,透过高速和低速互联线路执行。

用 Kings Canyon 进行 AI 推理

与逐渐增加的 AI 训练负载相对应,AI 推理负载也在快速增加。下一代设计中,Facebook 和 Esperanto、Habana、英特尔、Marvell、高通等企业合作,共同开发易于拓展和部署的专属 ASIC 晶片。Kings Canyon 晶片同时支援偏重推理速度的 INT8(8 位整型)计算,以及偏重更高精準度的 FP16(半精準度浮点)计算。

Facebook「下一代 AI 计算平台」长什幺样子?

Kings Canyon 晶片搭载在 M.2 规格的电路板上;每个 Glacier Point v2 母板安装 6 块 Kings Canyon 晶片;最后,两个 Glacier Point v2 母板和两个单路伺服器一同组成完整的 Yosemite 伺服器。

Facebook 的影片转码 ASIC 晶片 Mount Shasta 也採用这种布置方式。

总结

根据 Facebook 的图解和介绍,目前似乎只有 AI 训练平台 Zion 开始使用,AI 推理晶片 Kings Canyon、影片转码晶片 Mount Shasta 及相关硬体还没看到实物。但 Facebook 上下都对这套设计充满信心。未来他们会透过 OCP 公开所有设计和相关规格,便于更广泛的合作;Facebook 也会和目前的合作伙伴一起共同改善整套系统的软硬体共同设计。

更多详细说明可参见 Facebook 官网。



上一篇:
下一篇: