“芯痛”之下阿里苦心研发NPU AI芯片究竟哪款PU更厉害？

2018-04-21 06:46

4月19日，有消息称，阿里巴巴达摩院正在研发一款神经网络芯片——Ali-NPU，主要运用于图像视频分析、机器学习等AI推理计算。按照设计，这款芯片性能将是目前市面上主流CPU、GPU架构AI芯片的10倍，而制造成本和功耗仅为一半，其性价比超过40倍。

应用上，通过此款芯片的研发将会更好的落地在图像、视频识别、云计算等商业场景中。据阿里达摩院研究员骄旸介绍说：“CPU、GPU作为通用计算芯片，为处理线程逻辑和图形而设计，处理AI计算问题时功耗高，性价比低，在AI计算领域急需专用架构芯片解决上述问题。阿里巴巴此款Ali-NPU在AI领域积累了大量算法模型优势，以最小成本实现最大量的AI模型算法运算。”

昨日，OFweek人工智能网在《当中兴事件揭开“缺芯少魂”的遮羞布 AI能否迷途知返？》中简单说明了英特尔、英伟达、AMD等传统芯片处理器巨头在CPU和GPU上存在的优势，而且它们都将人工智能定位为未来重要战略。

事实上，随着人工智能产业的发展，CPU、GPU、TPU、DPU、NPU、BPU……各种PU也开始爆发式出现。那么，究竟这些PU在性能和使用上有何异同，又有哪些优劣呢？

CPU：计算力占据部分很小擅长逻辑控制

CPU是最为普遍，最为常见的中央处理器。主要包括运算器（ALU）和控制单元（CU），除此之外还包括若干寄存器、高速缓存器和它们之间通讯的数据、控制及状态的总线。依循冯诺依曼架构，CPU需要大量空间放置存储单元和控制逻辑，计算能力只占据很小的部分，更擅长逻辑控制。

CPU结构简化图

GPU：计算单元数量众多但无法单独使用

GPU的诞生可以解决CPU在计算能力上的天然缺陷。采用数量众多的计算单元和超长的流水线，善于处理图像领域的运算加速。但GPU的缺陷也很明显，即无法单独工作，必须由CPU进行控制调用才能工作。

CPU、GPU微架构对比图

TPU：高性能低功耗然则开发周期长、转换成本高

谷歌专门为 TensorFlow 深度学习框架定制的TPU，是一款专用于机器学习的芯片。TPU可以提供高吞吐量的低精度计算，用于模型的前向运算而不是模型训练，且能效更高。但它的缺陷主要是开发周期长、可配置性能有限，缺乏灵活性且转换成本高。

DPU：可实现快速开发与产品迭代

国际上，Wave Computing最早提出DPU。在国内，DPU最早是由深鉴科技提出，是基于Xilinx可重构特性的FPGA芯片，设计专用深度学习处理单元，且可以抽象出定制化的指令集和编译器，从而实现快速的开发与产品迭代。