人工智能急需变革？互联网企业比英特尔更想蹚这一池芯片水

2019-02-27 09:45

一股清流，从通用出发去做专用芯片

目前主导推动推理芯片市场的以互联网公司居多，除了领头的谷歌，还有Facebook、亚马逊等，不可忽视的还有以硬件结构创新为出发点、骨骼清奇的寒武纪和寻求新增长力的英伟达。

不过，其中Facebook最有意思。

从他们在公共场合的表态来看，和谷歌、亚马逊所处之境一样，面对不可控的成本上涨，Facebook不是不着急。但不同于其他四家的芯片设计方向，即依据应用需求调试算法，随后依次开发设计硬件，Facebook选择耐着性子去做一款通用的深度学习专用芯片。按照Facebook的意思，虽然是深度学习专用芯片，但是也不可顺着应用需求过于专一，因此它的做法也是非常独特。

图｜ Facebook Glow平台

这始于Facebook早早为自己搭建好的一款名为Facebook Glow的深度学习通用处理器。提到这款平台，Facebook称其可用于处理云端的各种深度学习加速，但又不同于TensorFlow等开源工具，它不是针对用户设计的。

Taylor解释说：“推理加速器的市场必将表现为硬件碎片化，但我们的Glow主要是帮助深度学习专家设计神经网络而不是让大家用它来开发算法，以调试到去适应各类硬件推理加速器。我们知道碎片化时代正在到来，因为没人知道怎样把硬件资源组合起来最优，所以我们会让开发者专注在上层的网络图上而不是让他们为‘硬件’敲代码。”

在软件加速器上树立好绝对的标准，而后基于此来设计芯片，Facebook的造芯计划可谓宏图。

其实对于Facebook研发芯片这件事，业内人多用“奇葩”来形容。依据精准的上层架构来反向“强行”设计出底层具有通用性的AI芯片，很难评价其做法是否过于执拗和宏大，只能暗叹它的不走寻常路，因此对于CES2019上Intel宣布的这款与Facebook联手的芯片，还是值得期待一下。

终端市场缘何如此重要？

不难发现，上文提到的在推理芯片市场引起轩然大波的芯片产品都可归为一类：服务器芯片，即终端市场。

从技术角度来看，其实不仅仅是终端市场对推理芯片有着强需求，随着智能应用需求的深入，手机等移动端亦有此需求，如华为麒麟平台中用到的NPU芯片正是一款专用于解决神经网络推理计算的芯片。

但是不同于端侧市场的现有产品饱和与增长力不足，因云计算快速的深入，服务器的计算任务需求呈爆发式增长，因而对硬件架构提升的需求格外迫切。

图｜数据中心

亚马逊James Hamilton曾结合亚马逊所遇到的问题给出这样的分析：一直以来，虽然专用芯片可以成十倍改善延迟、降低成本和功耗，但是通用芯片的地位却是不可撼动的，这里面有其原因。以传统服务来说，一般情况下每个用户只会用到几个固定的服务器，即我们的服务器是按照用户分配的，这样的情况下专用芯片通常是没什么用的。但是云改变了一切，在一个完备的云系统中，比较“罕见”的工作负载甚至需要连接进入数千甚至数万个服务器里，同时运行以完成任务。这在过去是完全不可能实现的，因为以前即便能够很好的分配任务给专用硬件，也不能节约成本，尤其是当一些紧急状况出现时。

云的出现打通了硬件之间的“壁垒”，也极大程度的发挥了深度学习算法的威力，但它同时很快耗尽了众多公司现有服务器芯片的计算能力。

IDC曾做过数据统计，2018年第二季度全球服务器市场的厂商收入同比增长43．7％达到225亿美元，该季度全球服务器出货量同比增长20．5％达到290万台。而其中最大的增长力就表现在云计算服务器上。

深度学习、推理芯片与产业变迁

回到推理芯片，即处理逻辑运算的芯片。其实它并不是什么新产物，这里不得不提英特尔的x86架构。

所谓x86架构，通俗来讲就是一种通用的“CPU＋Linux”操作系统的架构，它伴随着1978年英特尔推出的8086处理器出现，具体指的是英特尔开发的一套通用的计算机指令集合。目前市面上所有主流的服务器都是基于Intel x86架构的CPU公版二次开发而来。

采用Intel的x86架构来处理服务器大量的计算任务，有人说是考虑CPU通过冯诺依曼架构可以为数百万的不同应用加载任何软件的灵活性优势，有人认为英特尔x86架构的向后兼容性让用户只要换个CPU就能获得性能提升的优势主导使然。总而言之，不同于训练模式的单一，深度学习推理任务的复杂让产业界综合考虑成本、技术成熟度等因素而最终选择了CPU芯片＋x86指令集的系统架构。

图｜ Intel x86

但众所周知的是，古老的x86架构虽经过了几十年的技术迭代，受系统架构本身的访问限制（又称冯诺依曼瓶颈），其总体的吞吐量和能耗都限制了它在大量计算任务上的表现能力，尤其是当深度学习算法出现后，这一弊端愈加被凸显。

深度学习算法之所以如此重要，主要原因在于它刚刚诞生不久就能够迅速适应几乎所有的应用需求，历史上很少有一项技术有如此的影响力，因此其特殊属性催生了对大量数据进行处理和分析的需求。对于这一算法带来的影响，黄仁勋一句话点出其中奥妙：深度学习是一种新的计算方法，所以整个产业需要发展出一种新的计算体系结构。

因而在深度学习的两大功能——训练和推理的模式推动下，Caffe、Tensorflow等软件架构工具迅速发展，芯片巨头也争相以此为起点开发新的芯片。英伟达借助GPU与训练功能的天生匹配登上了市场龙头的宝座，但他们发现要实现训练之后的推理功能，即对图像的识别、语义的关联处理等，GPU却是不适合的。

没有合适“人选”，推理市场因此空出霸主之位。退而求其次，CPU＋GPU发展成了服务器市场中主流的架构解决方案，但终究不是长久之计。对此，大家心知肚明。

最后

在这一波巨头带动的小高潮背后，无疑预示着产业发展中推理任务处理需求积聚到了一个新的高点。

箭在弦上，不得不发。但最终谁将胜出，还只能静候各厂家接下来的芯片产品。

正如Patterson与Hennessy在《计算机体系结构的新黄金时代》里所言，“在摩尔定律走向终点的同时，体系结构正在闪耀新的活力——以TPU为代表的领域特定架构（Domain Specific Architectures， DSA）兴起，但CPU、GPU、FPGA仍然有用武之地，最终，市场会选出胜者。”

<上一页 1 2