360AI研究院高级技术总监陈强博士：中国新一代人工智能关键共性技术体系的现状和突破点

2018-09-08 12:28

8月30日－31日，由中国高科技行业门户OFweek维科网、高科会主办，OFweek人工智能网承办的“OFweek（第二届）中国人工智能产业大会”在上海跨国采购会展中心拉开帷幕。

此次会议旨在搭建专为人工智能圈内企业和从业人员交流合作的专业平台，汇集人工智能领域的国际知名企业高层、行业资深专家、专家分析机构等数千位精英，1000＋人工智能专业人士共同探讨人工智能难题以及产业落地，提前布局未来大市场。

会上，主办方邀请了多名重量级嘉宾和企业代表进行演讲，精彩的演讲赢得现场观众阵阵掌声，现场人声鼎沸，极其火爆。

在本次论坛上，360AI研究院高级技术总监陈强博士向数千名观众及媒体分享了中国新一代人工智能关键共性技术体系的现状和突破点。

会上，陈强博士详细介绍了360视频大脑的三大模块：安全（网络安全、线下安全）、IOT智能硬件（360摄像头、360儿童、360车联网）、内容分发（探索、短视频、直播、信息流）。以及如何在目前内容结构化、IOT智能硬件设备数上涨迅猛、4G／5G的普及、互联网内容流量逐渐以视频为主的趋势下，提高短视频分析率、安防监控每日人脸比对次数、端上AR特效平台输出可次数。

以下为陈强博士的现场演讲内容，OFweek人工智能网作了不改变原意的整理和编辑：

大家下午好，首先感谢维科网盛情邀请，我这次来参加比较有意思的会场，首先稍微解释一下，因为一开始发布的题目有点大，然后我一看时间只有20分钟，所以稍微改了一下题目，其实这个题目也符合现在人工智能发展的现状，从讲人工智能技术到现在结合场景以及结合具体的产品去讲人工智能落地的问题。

人工智能的背景

我们讲人工智能要去解决一个问题，不论是AI＋行业还是行业＋AI，我们往往会从四个方面来讨论这个问题。我们关注的问题是人工智能技术在什么样场景下拿到什么样的数据，然后结合一定的算法和算力来去解决具体的问题。一般的公司和一般的稍微带点平台型的公司，他们比较大的区别在于平台类公司往往会在算法和算力上稍微好一点，他们的技术研发能力会比较强。但是作为创业者公司来说，他可以在具体的场景和具体的数据层面达到不一样的效果。所以今天我的主题演讲主要从场景、概念和数据这三个层面来给大家介绍一下我们在360内部做的事情。

首先稍微介绍一下， 360为什么要做人工智能这一块。360在人工智能和自己的业务是如何去结合的？其实360在大众的眼里面可能更多是一个安全类的公司，但是实际上360的主营业务一直是有两个层面，表是安全，里是内容，也就是在传统的互联网内容之中，人工智能起到决定性的作用。所谓的安全，我们更希望是从线上的安全慢慢拓展到线下的安全。再到内容这一块，AI所赋能的更多是因为我们希望AI能够让信息的生产、信息的分析和获取能够更加智能，能够得到更高效的效果。所以结合360线上线下的产品，我们AI研究院主要提供了很多产品化方案。

AI在整个互联网行业已经是一个标准化工具，在过去两年中，随着互联网向线下的一个发展，以及互联网向内容分发效率的发展，我们觉得可能更多是要去做一些视频方向的具体事情。我们目前在360内部试产一点的战略叫一点两一。什么叫一点？就是我们的核心价值在于360安全这一块，所以线上安全和线下建设安全这两块业务是我们这边的表和里，以及技术的战略点。两一其实就是我们现在重点的两个业务方向，具体来说就是，一个结合线下安全去做硬件的业务场景，以及在内容分发层面上，去结合AI技术，让分发的一效率以及效果能够达到最优。具体来说的话，IT硬件这边我们陆续也发布了很多产品，包括目前已经有数百万用户的摄像头，以及二三号零儿童手表。

而线上内容分发这块更是360的重中之重，因为这是360和所有互联网公司的兵家必争之地，所以在搜索短视频业务直播以及信息流这块，AI场景在里面起到了一个决定性的作用。而视频大脑我们觉得是只作为中间的一个核心技术点和核心的技术方案产出，对这两块业务产生了一个巨大的一个推动作用。首先硬件如果没有智能，没有对视频和语音技术的理解，它其实就谈不上跟传统的智能硬件有区分性。而视频分析又是去年的一个风口，从短视频到直播类产品，之后会有越来越多的互联网内容分发的产品，而AI在里面提供了一个决定性的作用。

视频大脑的具象化表述

其实从过去两三年以来的话，我们从AI或者说视频分析的一个技术点输出，到逐步转化为解决方案的输出。所谓技术点的输出，更多是说我们常见的人工智能技术如何去帮助一个行业，或者是一个新的业务能够更多的去赋能。但是到现在这个阶段，随着行业的发展，它更多不只需要智能技术，而更多是能够提供一个完整的方案。所以针对我们内部的一些业务线，我们做了很多基于视频大脑的行业方案，包括安防、短视频，端上的包括私有化。它结合了目前市面上普遍说的一些概念，包括云边端一些场景，后面我会具体来去给大家介绍一下。

我们视频大脑对短视频做了一个完整方案。短视频的生态是比较完整的，它从作者端的生产到需要作者和用户的交互增强到上传。平台这边需要对上传的视频进行理解和分析，然后最后分发，分发的效果最后又体现在生产这边，这是一个完整的生态。

视频大脑或者说视频分析方面，我们做的每一个过程，每一个方案都是为了在每一个节点上产生巨大的推动作用。比如说在生产和增强这一块，它能够产生出很多新的范式，新，是很多视频的高生产工具，能够帮助用户和作者来更好的表达视频展现方式。而短视频内容分析更是视频网站或者说视频APP的基本必需品，然后分发方面更多是结合推荐算法来做更多、更好、更有效率的分发效果。

我们这边做的比较重要的一个事情是短视频的视频结构化分析。通过对短视频内部进行音视频理解，来去达到更多结构化内容的产生。而结构化内容又是对视频内部的语音化标签和语义化内容的语音化技术去达到一个效果。举几个它运用的比较明确的场景，首先是内容审核。众所周知，内容行业一个最大的风险，或者说各个平台方面最大的一个风险：如何能够正确的回应政府的监管问题。之前大家往往会重视说短视频审核其实更多是提高效率问题，比如说每天上传100万的视频，可能需要足够的人力去审核，而机器可以作为辅助。

但是其实对于我们从业者来说，我们觉得准确率是更重要的点。我们希望人工智能技术在里面所起到的作用，不单是能够提高效率，更多是提高准确度。如何提高准确度？我们在内部做的更多就是运营和机器两块，达成的是并行审核的概念。准确率的提升是相加的关系，而不是相乘的关系。

另外基于对视频的内容理解，我们能够做到很多内容的关联，能够更快更高效地找到目标用户的兴趣点，从而为平台方、平台推送方提供方案。

另外介绍一下360内部的安防监控业务。360的安防监控跟市面上的安防监控可能有点不一样，首先360内部的安防监控是TO C场景类的，所以其特点就是量很大。这个量大到什么程度？大概在一年前，我们的当天在线用户数基本上已经达到了百万级别，也就是说有100万视频实时地经过我们的服务器。所以另外一个特点就是它是TO C类产品，必然其安防需求也是跟传统的安防是不大一样的。从内部来说可能结合两个点，一个是叫安防到安心这么一个点来去做基本的话，包括了陌生人人脸识别。也包括了安心这一块，作为每一个C端的用户，他希望知道家里面一天的进出了什么人，然后我们对一天的视频进行分析，是不是能够告诉我一天内家庭成员的整个画像是什么样子。

在这方面还有比如有些用户更喜欢结合直播场景，跟家里的小孩有一些互动。这方面我们也做了一些工作，包括检测家人、智能自动唤醒。更重要是我们拥有几百万的用户，在自有数据上进行的训练和达到的效果是行业里面很多企业都没法做到的。我们曾经做过一个实验，怎么用共有的数据来去做所需模型和线上系统呢？它对人脸比对的准确度可能只有78％，这是实际的家用场景中碰到的一个很大的问题，而结合我们私有数据来去做这些事情，我们最后的准确效果能达到百分之九十八。

另外一块想给大家介绍的是我们过去一年多做的事情——端上的AI特效平台。这块其实结合了挺多的技术点，比如说人脸关键点定位。从目前来说的话，已经达到207个点的关键点，能够在手机端移动端达到实时的处理效果。另外它的一个最大的应用场景是互联网，互娱这边内容上可能大家觉得不是特别有意思，就是说在直播的场景或者说在相机类场景，它结合一些主播或者视频制作者的强互动，我们加上一些技术上的东西，比如说AI抠图，比如说人脸的关键点定位，就能做出一些比较好玩的一些效果。

这块是端上的一个平台，重点在于强调人跟外界的交互，其中很重要的点就是人脸分析，目前在国内外，最早的人脸标准库，LFW达不到99．7％，在去年的3．15晚会上，结合360的这样一个安全场景我们告诉大家，人脸验证这个事情其实还是有很多不可靠的因素。

在去年的晚会上，我们在现场实时地破解了人体活体验证这个经常使用的功能。而刚刚讲的更多是业务层面的东西，实际在360内部，做人工智能研发还是有很多侧重点的，比如说我们更多侧重在小、快、准三个点上去做小盒快，更多是说希望能够设计好模型，它能够在云端和移动端，甚至在后面的边缘端，达到比较好的效果和效率。线上速度快，这是一个更需要的东西。这块我们和行业内很多芯片厂商以及业内人士一起结合方案去做这一块，而预测权限技术是转为深度模型的深度学习，然后我们希望它能达到一个比较好的预测速度。

我们做人工智能算法也是希望有一些特点，特点更多是两方面，一方面我们希望在国际上的公平竞赛上能够得到大家的一些认可。

在过去的八年间，360人工智能团队基本上已经获得了十次以上的冠军或者提名奖，包括世界计算机视觉世界杯之称的ImageNet，以及比较有名的Pascal竞赛。另外在对于行业内部的来说，或者对人工智能计算法上有一些原创性的贡献。目前我们的两项技术基本上已得到了广泛的应用，包括我们在14年提出一个叫NIM的网络，它目前基本上已经成为一个所有做深度学习都会使用的标准算法，以及我们在去年使用的Dual Path Networks。在去年的时候我们也参加了ImageNet一个关于标准物体定位的竞赛，并夺得冠军。

标准物体定位是计算机视觉的一个最重要的任务，它的目的是在通用的视频或者图像当中，能够找到通用的一些物体，它的类别数量可能有一千类以上。在去年我们参加这最后一场竞赛的时候， Dual Path Networks获得了三项比赛、14个指标，全部排在世界前三的结果。

最后总结一下，我们为什么觉得视频大脑或者说视频内容分析是未来的趋势，首先我们能看到两大趋势，就是IT智能硬件的设备数。目前视频大脑或者视频内容分析能够赋能很多一般硬件不能做的事情。另外一块我们觉得在随着4G和5G的普及，从过去一年的数据上来看，百分之七八十以上的互联网流量已经转化为视频数据。这个视频数据需要有人去分析，需要有人去监管，这样自然就带来了一个比较大的市场，而我们希望视频大脑能够解决这一块。目前来说我们能做到的，或者说业内我们能提供的，包括后续可能会向行业去开放的能力，包括短视频内容分析，我们已经做到了一级的PGC视频的处理。而安防监控这边的话，每天的人脸比对，并不是人脸检测，是达到了百万级的在线视频，每天1．5亿的API调用。另外端上智能这块，我们也已经开始向行业人士开放来进行一个推广，目前陆续有各大手机厂商也跟我们开始合作。好，今天我的分享到这儿结束，谢谢大家。