一文看懂AI芯片最新格局

2018-10-23 09:23

云端推断芯片：百家争鸣，各有千秋

推断是指借助现有神经网络模型进行运算，利用新的输入数据来一次性获得正确结论的过程。推断过程对响应速度一般有较高要求，因此会采用 AI 芯片（搭载训练完成的神经网络模型）进行加速。

相比训练芯片，推断芯片考虑的因素更加综合：单位功耗算力，时延，成本等等。初期推断也采用 GPU 进行加速，但由于应用场景的特殊性，依据具体神经网络算法优化会带来更高的效率， FPGA／ASIC 的表现可能更突出。除了 Nvidia、 Google、 Xilinx、 Altera（Intel）等传统芯片大厂涉足云端推断芯片以外， Wave computing、 Groq 等初创公司也加入竞争。中国公司里，寒武纪、比特大陆同样积极布局云端芯片业务。

主要云端推断芯片对比

我们认为，云端推断芯片在未来会呈现百花齐放的态势。具体情况如下：

Nvidia

在云端推断芯片领域， Nvidia 主打产品为 P40 和 P4，二者均采用 TSMC 16nm 制程。 TeslaP4 拥有 2560 个流处理器，每秒可进行 22 万亿次（TOPS）计算（对应 INT 8）。而性能更强的 Tesla P40 拥有 3840 个流处理器，每秒可进行 47 万亿次（TOPS）计算（对应 INT 8）。从单位功耗推断能力来看， P4／P40 虽然有进步，但仍逊于 TPU。 GPU 在推断上的优势是带宽。

Google

Google TPU 1．0 为云端推断而生，其运算单元对神经网络中的乘加运算进行了优化，并采用整数运算。 TPU 1．0 单位功耗算力在量产云端推端芯片中最强，达 1．2TOPS／Watt，优于主流 Nvidia GPU。 TPU 2．0 在推断表现上相比于 1 代并没有本质提升，主要进步是引入对浮点数运算的支持，及更高的片上内存。正如前文所述，支持训练的 TPU 功耗也会变得更高。

Wave Computing

Wave computing 于 2010 年 12 月成立于加州，目前累计融资 1．2 亿美元，是专注于云端深度学习训练和推理的初创公司。Wave computing 的一代 DPU 深度学习算力达 180 TOPS，且无需 CPU 来管理工作流。目前公司正与 Broadcomm 合作在开发二代芯片，将采用 7nm制程。

Groq

Groq 是由 Google TPU 初始团队离职创建的 AI 芯片公司，计划在 2018 年发布第一代 AI芯片产品，对标英伟达的 GPU。其算力可达 400 TOPs（INT 8），单位能耗效率表现抢眼。

寒武纪科技

寒武纪在 2017 年 11 月发布云端芯片 MLU 100，同时支持训练和推断，但更侧重于推断。MLU 100 在 80W 的功耗下就可以达到 128 TOPS（对应 INT 8）的运算能力。

比特大陆

比特大陆的计算芯片 BM 1680，集成了深度学习算法硬件加速模块（NPUs），应用于云端计算与推理。 BM1680 还提供了 4 个独立的 DDR4 通道，用于高速数据缓存读取，以提高系统的执行速度。其典型功耗只有 25W，在单位能耗推断效率上有一定优势。

应用场景1：云端推断芯片助力智能语音识别

云端推断芯片提升语音识别速度。语音识别是推断芯片的工作场景之一，如 Amazon 的语音助手 Alexa，其“智能”来自于 AWS 云中的推断芯片。 Alexa 是预装在亚马逊 Echo内的个人虚拟助手，可以接收及相应语音命令。通过将语音数据上传到云端，输入推断芯片进行计算，再返回结果至本地来达到与人实现交互的目的。原先云端采用 CPU 进行推断工作，由于算力低，识别中会有 300－400ms 的延迟，影响用户体验。

智能音箱通过云端推断芯片工作

而现今 AWS 云中采用了 Nvidia 的 P40 推断芯片，结合 Tensor RT 高性能神经网络推理引擎（一个 C＋＋库），可以将延迟缩减到 7ms。此外， AI 芯片支持深度学习，降低了语音识别错误率。目前，借助云端芯片的良好推断能力，百度语音助手的语音识别准确度已达到 97％之高。

Nvidia 云端推断芯片提升语音识别速度

应用场景2：推断芯片应用于智能搜索

RankBrain 是 Google 众多搜索算法的一部分，它是一套计算机程序，能把知识库中上十亿个页面进行排序，然后找到与特定查询最相关的结果。目前， Google 每天要处理 30 亿条搜索，而其中 15％的词语是 Google 没有见过的。 RankBrain 可以观察到看似无关复杂搜索之间的模式，并理解它们实际上是如何彼此关联的，实现了对输入的语义理解。这种能力离不开 Google 云端推断芯片 TPU 的辅助。

推断芯片助力深度学习实现语义识别

先前，在没有深度学习情况下，单纯依靠 PageRanking 及 InvertedIndex， Google 也能实现一定程度的对搜索词条排序的优化，但准确率不够。 TPU 利用 RankBrain 中的深度学习模型，在 80％的情况下计算出的置顶词条，均是人们最想要的结果。

TPU＋RankBrain 在推断正确率上获得提高

用于智能手机的边缘推断芯片：竞争格局稳定，传统厂商持续受益

手机芯片市场目前包括：（1）苹果，三星，华为这类采用芯片＋整机垂直商业模式的厂商，以及（2）高通，联发科，展锐等独立芯片供应商和（3） ARM， Synopsys、 Cadence 等向芯片企业提供独立 IP 授权的供应商。采用垂直商业模式厂商的芯片不对外发售，只服务于自身品牌的整机，性能针对自身软件做出了特殊优化，靠效率取胜。独立芯片供应商以相对更强的性能指标，来获得剩余厂商的市场份额。

从 2017 年开始，苹果，华为海思，高通，联发科等主要芯片厂商相继发布支持 AI 加速功能的新一代芯片（如下图）， AI 芯片逐渐向中端产品渗透。由于手机空间有限，独立的AI 芯片很难被手机厂采用。在 AI 加速芯片设计能力上有先发优势的企业（如寒武纪）一般通过 IP 授权的方式切入。

手机 AI 芯片对比

对这些厂商来说，我们认为 AI 化的主要作用是提升芯片附加价值与产品单价。根据 IHS的数据，随着硬件性能的增强及针对于 AI 的运算结构不断渗透，苹果 A11 芯片的成本已达到 27．5 美元。

智能手机 SoC 市占率分析（2017）

芯片成本持续上涨有望带动垂直模式厂商整机售价走高，在出货量相同的情况下为现有芯片厂商贡献更多的营业收入。高通、联发科、展锐等独立芯片供应商则会受益于芯片本身 ASP 的提升。

历代 Apple 手机芯片成本趋势

应用场景1：推断芯片为 AI 拍照技术提供硬件支持

智能手机通过 AI 算法＋终端推断芯片，可实现对于现实世界图像的智能识别，并在此基础上进行实时优化：

1）从整个场景识别，到特殊优化过程中，推断芯片为算法运行提供硬件支持。

2）手机推断芯片中 GPU、 NPU 等单元的协同工作，实现了对边缘虚化更准确的处理，使小尺寸感光元件的手机获得“单反” 级的景深效果，增加相片的层次感。

3）人脸结构的识别也离不开边缘推断芯片，芯片性能的提升直接导致了 AI 美颜、 3D 光效等特殊效果变得更加自然。如果缺少终端芯片的支持，一旦运行高负载的 AI 任务手机就需要呼唤云端。而云端的相应速度不够，导致 AI 摄影的识别率和准确率下降，用户体验将大打折扣。

手机 AI 芯片辅助图片渲染优化

应用场景2：推断芯片助力语音助手处理复杂命令

从“听清”到“听懂”，自然语言理解能力提升与推断芯片硬件的支持分不开：多麦克风方案的普及解决了“听清”的问题，而到“听懂”的跨越中自然语言理解能力是关键。这不仅对云端训练好的模型质量有很高要求，也必须用到推断芯片大量的计算。随着对话式 AI 算法的发展，手机 AI 芯片性能的提升，语音助手在识别语音模式、分辨模糊语音、剔除环境噪声干扰等方面能力得到了优化，可以接受理解更加复杂的语音命令。

手机 AI 芯片辅助 Vivo Jovi 处理复杂命令

用于安防边缘推断芯片：海思、安霸与 Nvidia、 Mobileye 形成有力竞争

视频监控行业在过去十几年主要经历了“高清化”、“网络化”的两次换代，而随着 2016年以来 AI 在视频分析领域的突破，目前视频监控行业正处于第三次重要升级周期——“智能化”的开始阶段。前端摄像头装备终端推断芯片，可以实时对视频数据进行结构化处理，“云＋边缘”的边缘计算解决方案逐渐渗透。我们预计，应用安防摄像头的推断芯片市场规模，将从 2017 年的 3．3 亿美元，增长至 2022 年的 18 亿美元， CAGR～41％。

应用场景：安防边缘推断芯片实现结构化数据提取，减轻云端压力

即便采用 H．265 编码，目前每日从摄像机传输到云端的数据也在 20G 左右，不仅给存储造成了很大的压力，也增加了数据的传输时间。边缘推断芯片在安防端的主要应用，基于将视频流在本地转化为结构化数据。这样既节省云端存储空间，也提升系统工作效率。“视频结构化”，简言之即从视频中结构化提取关键目标，包括车辆、人及其特征等。虽然这种对数据的有效压缩要通过算法实现，但硬件的支持不可或缺。

视频结构化数据提取实例

根据海康威视提供传统视频解码芯片厂商积极布局 AI 升级。华为海思、安霸（Ambarella）都在近一年内推出了支持 AI 的安防边缘推断芯片。海思的 HI3559A 配备了双核神经网络加速引擎，并成为第一款支持 8k 视频的芯片；安霸也通过集成 Cvflows 张量处理器到最新的 CV2S 芯片中，以实现对 CNN／DNN 算法的支持。

AI 芯片助力结构化分析实现工作效率提升

打入视频监控解决方案龙头海康威视，实现前装的 Nvidia，Movidius 同样不甘示弱， Movidius 发布的最新产品 Myriad X 搭载神经计算引擎，在 2W的功耗下可实现 1TOPS 的算力。Nvidia TX2 是 TX1 的升级产品，算力更强，达到 1．5TFLOPS，存储能力也有提升。

安防 AI 芯片对比

我们认为，目前整个安防 AI 芯片市场竞争格局稳定，现有厂商凭借与下游客户长期的合作，有望继续受益于安防智能化的升级，属于新进入者的市场空间有限。安防 AI 芯片下游客户稳定，为海康威视、大华股份等视频监控解决方案提供商。客户与传统视频解码芯片厂商的长期合作具有粘性，同样推出新产品，初创公司的竞争优势弱一些，尤其是在安防 AI 芯片性能差异化很难做到很大的情况下。