聪明机器的诞生，不是一天练成的

2021-11-19 16:31

无人不知人工智能，但搁二十年前，绝对不是这番光景。

如果穿越回去你问人什么是“人工智能”，他们可能会给你一个让你出戏的回答——网络是有记忆的，搜索引擎告诉我们，在21世纪之初的中文互联网上，《人工智能》还是那部2001年上映的，大导演斯皮尔伯格拍摄的科幻电影。如果你想看看与人工智能有关的新闻，你能在2004年的新浪网里找到一点仅存的痕迹：数码相机的“人工智能”自动对焦、电子游戏的“人工智能”对手玩家、阿兰·图灵为人工智能设计的“图灵测试”……

我们对人工智能的期待远不止于此。让技术赶上人类的想象力，这是一代代科学家们的时代任务。

刘冬宇｜作者

放大灯团队｜策划

拆了那个虚拟人

今天很多科技公司尝试推出的“虚拟人”或者“数字人”，可能是我们能想到的人工智能技术的集大成者之一。一个合格的虚拟人，有一个合成的精巧的形象（可能基于某个真人，也可能凭空创造，可以是三维的，也可以是二次元），能听能说，谈吐得体，配套的表情手势口型天衣无缝。TA可能出现在新闻播报、教育陪伴等领域，去实现更个性化的、跨学科知识与生活常识内容的输出；TA也可能会出现在直播娱乐、营销代言等领域，我们希望它永远不要翻车、不要出错，粉丝和品牌也不必战战兢兢。

但这很难。虚拟人的每一个动作，都可能是在二十年前，计算机科学家们就开始致力于解决的一项项工作。

比如让虚拟人“说话”，就是一项颇有年头的工作。1999年，科大讯飞刚刚成立的时候，他们最重要的技术，就是让电脑发出合成的语音。但从“能说”，到“说得更好”，就成了直到今天仍然在优化升级的工作。

今天的虚拟人，它们的合成声音更自然了，我们通常用0～5分去标记语音的自然度，满分5分是优秀播音员的水平，科大讯飞去年做到了相当于4．5分的水平。但数字人需要的对话与表达能力，它甚至不完全是一个自然度的问题，不是纯粹的语音合成系统能解决的，更需要内容理解、情感表达与合成预测，这也是现在行业研究的热点之一。

还有方言合成、小语种外语语音合成，这两项工作都需要语言学家告诉机器这些特定方言与语种的知识。在刚刚过去的科大讯飞1024开发者节上，科大讯飞高级副总裁胡国平介绍说，今天科大讯飞语音合成有24个语种。而方言与小语种的成功合成，又反过来推动了这两类语音识别的工作——先合成语音，再交给语音识别系统去训练，它能让100小时的有监督数据和无标签文本训练，实现原本10000小时数据的训练效果。

在近日国际低资源多语种语音识别竞赛OpenASR上，科大讯飞－中科大语音及语言信息处理国家工程实验室的联合团队，就在15个语种、22条赛道的比赛中，全部取得第一。

小样本训练（科大讯飞又称之为个性化语音合成），也是这几年语音合成技术的突破之一，你说一句话，系统就能仿照你的声音去合成。这与我们有什么关系？个性化语音已经走进你的日常生活，比如导航App已经可以录制自己的导航语音包，就离不开这个小样本学习的模型；如果未来你需要在数字世界建立一个虚拟化身，想让它能像你一样说话，这门技术显然还有用武之地。

也比如“唱歌”。科大讯飞1024开发者大会上，一位“虚拟人”就上台展示了如同真人般的语音交谈，她甚至还能唱歌——让我们再次回到世纪之交，2000年那会儿，雅马哈公司开始研发一款让电脑唱歌的软件“VOCALOID”。

几年后，基于VOCALOID系统的一个声库“初音未来”，成了今天业界讨论“虚拟人”与“虚拟偶像”话题绕不开的名字。很多鼓吹虚拟偶像的媒体不会告诉你的是，她只是一个提线木偶，由编曲者告诉她该唱什么、该怎么唱，要细化到每一个音节都要用一大堆参数去指定她来工作，即使如此，你还是能一耳朵就听出来这是电子歌姬的声音。而在声音之外的形象上，她也不是官方塑造的产物，而是在创作者们的二次创作下，才逐渐拥有了更清晰的形态、更圆满的故事与性格。

今天的虚拟人呢？他们早已学会了自主地完成唱歌的任务，比如科大讯飞的“虚拟人爱加”、从微软独立的“小冰”。这也是你看得见的人工智能。

虚拟人“爱加”

今天的虚拟人还要能听懂人说话，这是更漫长的长跑。

2002年，科大讯飞的科学家们开始尝试让电脑听懂声音——从普通话等级考试的答题开始。

为什么是普通话等级考试？当然是因为语音识别不太容易，需要找到一个更容易上的台阶。你想象一下这两样任务：

A．让电脑直接听你说话，猜猜你在说什么；

B．让电脑预先知道你在读什么，然后听听你读得对不对。

哪个更容易实现？当然是B。这是技术路线“可达性”方面的原因，但还另有玄机。

在科大讯飞研究了十年语音技术的科大讯飞AI研究院副院长潘嘉还告诉我们，普通话等级考试还有一个特点：它的答卷是在录音室里，用合适的设备，让考生尽可能标准地读出内容。而在语音识别的初始阶段，工程师们必须先从这种无限接近理想情况下，从高质量语音的评测开始做起。

让计算机听懂语音，在几年的技术孵化后，迅速被投入到普通话等级考试中去。为什么一定要搞定这个技术，让机器去给人打分？实际上，为口语考试打分的工作量，远远超过其它任何一种考试形态。批作文可以一目十行，但普通话考试的老师必须仔细听完每一段语音、不漏过每一个读错的字，才能打分。

从最简单的语音考试，直到今天语音识别系统在嘈杂的车里、会议室里、演讲厅里，都能听懂中文外语方言，这又是长达二十年的工作。胡国平将这种技术演进方法总结为“台阶”，在每个技术发展阶段只做能做到的事情，要成为先驱，不要成为先烈。而在今天，虚拟人身上还装备着更多的技能：

如何让虚拟人配合声音做出动作与表情？

如何用除了语音对话之外的方式，比如通过视觉去判断人的意图、对话对象等？

让虚拟人表达情感，需要一系列创新

虚拟人是一箩筐人工智能技术的集合：多模态感知、语音识别、对话理解、对话生成、语音合成、虚拟人形象生成等等，这里的每一项技术，都可能是中国快速数字化进程中的一朵朵浪花。

二十年来，AI的发展就是这样一个个台阶走上来。每一个想解决的问题想开发的功能，都要从更小的问题入手。而成立于1999年的科大讯飞，也已经把数字人推向了几十家电视台等工作场景中去。他们现在想解决的问题，也早已从听懂“照本宣科”的语音考试，变成了人类与机器之间的几个根本问题，由语音业务而起，直到让机器能听、能看、能理解这个世界。

从语音到一切

世纪之交，OCR问题是诸多技术公司们试图攻破的关键技术高峰，与科大讯飞差不多同期建立的汉王公司，便是早早将实验室里的OCR技术落地成应用产品的公司。最早，OCR被用于扫描录入文档，从扫描标准印刷体到识别手写体文档，OCR跨过了一个个难关；而在今天，OCR已经深入一个个App和产品中，拍照翻译、“翻译笔”、名片录入、手写输入法等等，背后都有OCR的功劳。

可能是因为它的确太有用，到了2006年，汉王的OCR技术拿到了国家科学技术进步奖二等奖。

也就在这个时刻，科大讯飞AI研究院首席科学家魏思觉得，OCR还会在更多领域有潜在的应用价值，特别是教育——2002年，科大讯飞开始的语音评测项目，就与教育、考试系统有着分不开的联系，而OCR，显然它就是进一步让机器阅卷必需的关键技术——让机器识别答题卡。

它非得突破不可。但机器要如何识别汉字呢？在漫长的时间里，科大讯飞的科学家们尝试过一个又一个方案。

早期的科大讯飞OCR团队，就用人工分析字体的关键特征来识别单个汉字，他们试图用这种方式去优化科大讯飞输入法的手写输入准确率——这个2010年上线的输入法，主打的就是自然高效的语音识别输入，而手写同样作为自然语言，也值得多做一些工作。

就在OCR团队优化手写识别的时候，魏思和潘嘉也在同步带队将新兴的深度学习方法应用在语音识别领域。2010年，微软的一篇论文，宣告了深度神经网络（DNN）在语音识别中的超高效率，科大讯飞的科学家们则成了第一批在中文语音上使用DNN方法的先行者。

“为什么我们不拿语音识别的技术试试呢？”

2014年，科大讯飞在改进图像字符识别OCR技术时，科大讯飞AI研究院的两拨科学家们在办公室里碰出了这么一个新想法。当时，魏思领导的语音识别团队，与OCR团队的工位相隔不远，当时两伙人一对，发现语音识别与字符识别，其实存在非常多的相似之处，而在那个时刻，语音识别团队已经琢磨了四年深度神经网络（DNN），也借助这个工具把语音的识别率迅速提升，并用到了输入法等实际的业务里。

“魏思是经常会提出很多新的想法的，他的风格就是只要能解释得通，就一定要试一试，并且他会跟下面所有人去分享他这个东西。他能来带动整个AI研究院的气氛嘛，科大讯飞能做出一些典型工作，这个气氛很重要。”语音识别专家潘嘉回忆。当年，魏思还主导了科大讯飞AI研究院里的“大组会”——在理工科实验室呆过的同学对这个名词想必不会陌生，而在科大讯飞，这个会议承载了各个团队交流各方向最新国际进展的关键场合，科大讯飞AI研究院的三条技术主线：语音、计算机视觉、认知智能，魏思和其它资深的技术专家要参与每个方向的技术报告。

很快，科大讯飞AI研究院的科学家们就用同样的底层模型，实现了OCR识别的准确率突破，并应用到了很多年前为OCR规划的应用场景里：全学科的试卷阅卷。这套系统很快完成了中高考英文作文识别的任务，并结合自然语言处理，与阅卷老师共同完成作文的打分工作。

直到今天，科大讯飞的OCR技术的底层，仍然是这套源于语音识别的深度神经网络框架。但在OCR之后，让机器看懂人的语言，还远远没有到头——接下来的工作，是让机器识别数理化的公式。

从科大讯飞开始OCR研究只能看笔划特征的单字识别，到今天的OCR识别手写公式、判断数学题的对错，再到拍摄录入结构化、带有排版信息的文档表格，已经过去了十年。科技公司的科学家们用几年、甚至十几年解决了技术问题，才有了今天我们习以为常、人人都能用得上的产品功能。

这仿佛是科大讯飞二十年的缩影：他们早早看到了技术的潜在价值、一步一个台阶地研发与落地。在AI这个容易 “烧钱”的行业里，科大讯飞活了下来，持续地进行技术研发与技术转化，成了布局全面且拥有多项全球顶尖技术的人工智能公司。

它的根，是二十年前的简单的需求：让电脑学会说话的语音合成技术。我们尝试按时间线整理科大讯飞扩张技术边界的过程，它大概是这样——

而我们最大的发现是：我们很难看到某一项业务的横空出世，所有的技术与业务，都有迹可循，就像这个把语音识别的技术，用在视觉场景的故事一样。

聪明机器的诞生

2005年，科大讯飞开始研究语音识别；2015年，一个语音识别的关键技术应用“语音转写”正式上线，而录音转写工具“讯飞听见”也在这个时间点开始孵化。2018年，科大讯飞的中英语音翻译系统，首次达到了CATTI全国翻译专业资格（水平）考试二级合格标准，这意味着这套系统可以参与到重大会议的翻译过程中。

为什么这个看起来很直观的功能，需要用长达十年的时间去完成？

因为很多应用场景，拆开来看，其实远比想象得复杂。在科大讯飞1024开发者大会上，胡国平说，会议的转写、实时翻译与同声传译，其实是典型的复杂系统。语音输入的识别只是其中一部分，为了提高大会实时转写翻译的效果，还需要让系统读懂PPT特别是实时或者提前学习会议中的术语，而在同声传译的工作中，需要把传统的一句句翻译、语音合成，改成低延时、全流式的合成方式，并学习演讲者的声纹，合成翻译的语音。

即使是最初的语音识别环节，会议的转写系统也面临着诸多技术考验。潘嘉告诉我们，会议转写这种场景下，系统面对的不是一个正在面向机器说话的人——如果你在用语音输入法，你会刻意地把字读清楚，不会有额外的没有意义的语气词；而会议场景，演讲者面对的是人，他的语言习惯会更加自然，可能会口吃，会有“嗯”“啊”这样的无意义的过渡词，转写系统所面对的这些现实问题，成了AI研究院的科学家们的技术难题。

从语音识别，到让系统知道语言的意义，中间还有一个关键的技术：NLP。这也是接下来一个技术台阶“认知智能”的基础。NLP技术在其中发挥重要作用的教育和消费者业务，成了今天科大讯飞在消费者层面最直观的业务：会议转写、教育硬件等等。

当系统可以听懂人在说什么、知道了语言的意思、也早早拥有了合成声音的能力，科大讯飞就有了语音交互的能力——人类将如何与机器共存，如何与机器交流，这样的重大命题，就要由“理解语言”开始。

每一个实际的社会需求，都指向某个技术问题，解决了它，就能让AI真正为人类做点什么。我们在整理科大讯飞的技术演进时，这种感觉愈加强烈。我们见过太多技术极强的科技公司的衰落，科大讯飞科技树的根，语音合成，本身也不像是一条长赛道。但为什么科大讯飞能走到了今天，并且在以“烧钱”著称的人工智能赛道里，早早盈利上市？答案也就在这个“技术演进”里：需求就在那里，科学家们需要寻找可达、阶段式上升的技术路线，并通过系统性创新，把一项项单点、底座式的技术，装配成最终的应用。

科大讯飞AI研究院今天的三大方向：语音、计算机视觉与认知智能，组成了科大讯飞对外总结的“AI科技树”。

认知智能是一个有趣的工作，科大讯飞AI研究院的认知智能专家盛志超告诉我们，在2014年他刚刚来到科大讯飞时，整个认知智能方向也只有十几个人，研究的正是上面所说的中英文作文的批改。他们要给机器“注入灵魂”，学习教学专家的评分标准：有没有语法错误？有没有高级的句式和修辞？

紧随作文评分之后，同样在2014年，科大讯飞开始让系统理解医学、法律等各行各业的知识，2017年，科大讯飞的人工智能首次通过了国家职业医师资格考试，考试成绩超越了96％的真人考生。但考试只是表征这套AI的阶段性成果，它真正的用途，一是在于让人工智能系统学习专家的知识，帮助基层医生提供诊断。而这正推动了“智医助理”业务成立和发展，目前已落地全国20多个省，累计在全国200多个区县、3万多家基层医疗机构上线，为5万多名基层医生服务；二是帮助患者在挂号中预先填写症状、实现智能的分诊挂号。

这是一个把实际问题抽象为计算机科学问题的过程。在1024开发者大会上，科大讯飞高级副总裁胡国平总结了“系统性创新”的三大要素：一是重大系统性命题到科学问题的转化能力；二是从单点的核心技术效果上取得突破，跨过应用门槛；三是把创新链条上各个关键技术深度融合，最终实现真正意义上的系统性创新。