从人工"智障"到人工智能，AI交互还缺什么？

2019-07-02 09:25

引爆AI技术的Alphago与李世石的“人工智能”世纪大战已经过去三年，与三年前Alphago大胜李九段时人们惊呼“人工智能将要替代人类”相比，2019年的人们在面对AI时则更为淡然，与之对应的现实是，近三年来人工智能技术虽已取得惊人成就，但仍未真正脱离“人工”的现实。

AI的“人工不智能”之困

2018年5月，谷歌在其I／O开发者大会上，展示了令人印象深刻的Duplex人工智能语音技术，当时谷歌现场演示了Duplex语音AI预约理发服务，在与理发店沟通过程中Duplex的那一声“嗯哼”更是技惊四座、惊艳全球，随后谷歌董事长骄傲的向世界宣布：在电话预约领域，Duplex已经通过了图灵测试。

然而，事情当然没有那么简单，在《纽约时报》记者的测试中发现，在成功预约的4次中，有三次是由人工伪装成Duplex完成的，随后谷歌官方声明，目前通过Duplex拨打的电话中，约有25％由人类完全操作，在其他非人工操作的情况下，有15％的呼叫受到了人为干预。

即使人工智能技术强如谷歌，也仍然迈不过AI语音交互的“智能之坑”。而实际上，著名的图灵测试，也有其特定历史环境下的局限性。

在图灵测试中，仅仅通过AI是否表现的像个人类的判断无法有效得出AI是否真的具有智能，而要想AI脱离“人工”烙印真正实现智能，就必须真正跨过那条人与AI之间的边界。

在电影《机械姬》中，人工智能Ava在利用Caleb的感情达到帮助自己成功逃生则是“真正成功的图灵测试”的刻画，影片中，人工智能Ava的缔造者Nathen真正目的正是希望Ava通过“性魅力、对人性的操纵、同理心”等人类情感特征的综合利用而实现逃生，因而，Ava的逃生也是“图灵测试的终极版”。

虽然相比机械姬Ava，谷歌人工智能Duplex的完成度显得“相形见绌”，但作为人工智能最为重要的底层技术之一，AI语音交互技术近年来的发展取得了一系列进步，并随着智能手机、智能音箱等硬件设备进入千家万户。

实际上，AI语音交互的基础是基于深度学习算法对语言系统的深度集成，因而决定其具有明显的“双边效应”，一方面，AI语音交互的完成度越高，其用户数量增长越快；另一方面，用户数量与使用频次的增长反作用于AI语音交互的深度学习训练，从而实现更高的完成度。

AI语音交互的“动态规划”法则

在互联网江湖（ITVIPTI）看来，语言交互的过程的本质，是数据在“动态规划”逻辑下对数据特征的精确匹配。

在数学领域，动态规划（dynamic programming）是运筹学的一个分支，是求解决策过程（decision process）最优化的数学方法。在AI语音交互上，实现交互的过程可以看做是一个对语音输入数据反馈“最优解”的数据匹配过程。

从技术构成上来看，AI语音交互技术大致可分为三个层面：“交互层、算法层、数据层”。在一个完整的AI语音交互过程中，由语音识别反馈技术为核心，实现交互层AI与人的交互触达，然后由算法层进行“动态规划”解析，将完整语义下的文字数据拆解为特定的“数据包”，并由算法将“数据包”与已有“语言系统数据”进行精确匹配，从而实现AI对语义的理解并给出反馈。

简单来说，这就像你拿着一只印着小猫图案的黄色铅笔并且想要一只同样的铅笔，你需要去一个有着各种各样笔的文具店，因而你需要用“动态规划”思维将这只独特的铅笔“拆分开来”，明确它的种类以及特征：首先，它是铅笔、其次它是黄色的，最后它印着小猫图案。然后根据这些特征通过筛选（算法）去找到文具店中同样的铅笔。（与已有“语言系统数据”进行精确匹配）

但就目前的技术条件下，想要实现语言数据的100％精确匹配需要一些“先决条件”。

交互层实现100％准确率的语音识别准确率是保证整个语音交互不会出现语义“理解”偏差的重要前提，而要实现语音识的精准必须构建完整的“语句数据库”，然后通过大量的识别训练提升其准确度。

其次，在实现精确语音识别后，需要算法对其进行“数据打包”并且实现对“语言系统数据库”进行快速检索，从而匹配到相应的“反馈方案”，而由于不同的语义决定了不同的语音交互场景，因此需要涵盖几乎所有语音交互场景的“算法仓”，同时每个算法必须满足对于精度和效率的双重需求。

在数据层，“语言系统”数据库的完善程度重某种意义上决定了整个语言交互系统的完成度。

无论是“交互层”还是“算法层”都需要“语言系统大数据”的全面参与，因而，构建完善的“语言系统”数据是整个AI语音交互系统的核心，也是技术上难度最高的一环。

然而，现实中在语音识别领域，目前只有科大讯飞的语音识别技术达到了98％的准确率，在整个语音交换互领域，也仅仅只有谷歌的Duplex通过了图灵测试，而要想真正实现语音交互的人工智能，仍然需要AI底层技术革新的推动。

进阶AI语音交互与“数据纳什均衡博弈”

目前，无论是苹果的Siri 还是微软的小娜，在语音交互中均未实现基于时间线对语境的理解。而就2018年5月谷歌开发者大会上Duplex的表现来看，谷歌人工智能语音识别技术在语境的“理解”上已经取得了一些进展。

互联网江湖团队（ITVIP1）认为，在进阶的语音交互过程中，除了遵循“动态规划”原则实现对语言数据的检索外，基于“语言系统”对输入数据的反馈则是一场算法驱动下数据与数据的“纳什均衡博弈。”

所谓“纳什均衡”，实际上是一种策略组合，在该策略组合上，即在博弈的双方中，一方的策略会随着另一方的策略变动进行策略组合的调整，以达到一种战略上的“均衡态势”，而这种“均衡态势”被称为“纳什均衡”。

在进阶AI语音交互中，AI算法基于时间线对语义的“理解”过程，可以看做是对于语言输入数据端的变化，完成AI算法端相应的策略变换的过程，从而形成“数据纳什均衡”。纳什均衡的形成需要以既定的“目标收益”为前提，而在AI语音交互中，这种“目标收益”实质上就是“在时间线的上对于语境的理解”。

“数据纳什均衡”下的进阶AI语音交互虽然从理论上可以实现AI对特定语境下的理解，但这样的AI仍不能够算的上真正的人工智能，真正意义上的人工智能不仅仅是“具有人类语言特征”的AI，而是真正具备人类思维能力以及行为能力的AI系统。

因此，从这个意义上来讲，真正的人工智能不仅具有“人类思维”的软件范式，也需要在物理上的“拟人化”，使之具备作为“人”行动能力。而想要实现真正的人工智能，不仅需要AI技术的“人化”也需要工程上的“人类化”。

因而，电影《机械姬》以及《机械公敌》中的人工智能形态才是完美的人工智能，从某意义上来讲，这样的人工智以及成为了一种由“人工”创造的硅基生命，而不仅仅是简单的“人工智能”了。

尾声：

AI天花板尽显，人工智能还有多远？

当下AI技术的兴起，源于深度学习算法领域取得的突破性进展，因而从这个意义上来讲，如今AI技术实质上是计算形式的革新。

也就是说，剥去人工智能的外衣，如今的AI并未真正意义上实现“人工智能”，更多的还是一种用于大数据分析与检索的工具，实际上，当下AI的价值也在于对数据的高效匹配和应用。另一方面，虽然AI技术在产业应用上仍有巨大的空间，但深度学习算法的“工具式”人工智能的天花板已经触及，算法驱动下的AI技术已经到达瓶颈。

也许，《机械姬》中对于人工智能的幻想在本世纪末也未必能够实现，而对于“人工智能颠覆人类”的恐惧也颇为“杞人忧天”，相对于人工智能时代的到来，或许我们更应该关注如今AI技术对于当下的改变，而AI语音交互作为AI技术应用的前沿阵地，任何的技术以及应用层面的进展都更值得我们去关注。

科技自媒体刘志刚，订阅号：互联网江湖，转载保留作者版权信息，违者必究。