聊天机器人再受追捧？Facebook押注下一代交互界面

2019-09-19 11:29

早在2015年，聊天机器人就备受关注。其中一个被大肆宣传的是Facebook的M，它的目标是成为一个灵活的、适用广泛的机器人，它可以做很多不同的事情，比如购买物品、安排送礼、预定餐厅和计划旅行。但这些声音远远超过了机器人本身。当Facebook在湾区对2500人测试M时，该软件并未能完成要求它完成的大部分任务。

在对M和其他聊天机器人的热情爆发之后，随之而来的是一波失望（微软首席执行官纳德拉曾说“机器人是新的应用”）。聊天机器人不像机器人那么爱聊天，那是因为他们被训练只谈论一小部分事情，执行特定的、有限的任务。它们无法与人进行自然的对话，无法根据对单词及其含义的一般理解产生自己的反应。它们只能提供一般性的答复。

在M测试版之前，Facebook缩减了对这款机器人的宏伟计划，尽管它的一些自然语言技术已经进入了相对保守的Messenger聊天机器人领域，这些聊天机器人可以做一些简单的事情，比如点餐或发送问答信息。美国运通和1－800－FLOWERS等公司仍然使用这种简单的聊天机器人来回答客户服务问题、接受基本订单和提供账户余额。如果你问一些超出它们理解范围的问题，则会让你和人工客服联系。

但Facebook的人工智能研究小组已经从那种只能简单聊天的机器人发展起来。Facebook自然语言研究人员Antoine Bordes表示：“过去3到4年我们一直在说，对目标导向对话的研究不是我们需要探索的道路，因为它太难，风险太大。”他还表示，如果一个旅游聊天机器人预订了“错误的飞机、错误的航班，那在金钱、旅游等方面都是一个很大的错误。”

Bordes解释说，Facebook并没有专注于特定任务的机制，而是后退一步来解决一个更深层次的问题——教虚拟代理像人一样交谈。他们认为，如果聊天机器人能够更好地理解，并与人类交流，它们最终可能会成为更好的助手，帮助人们完成实际任务，比如预订机票。

Facebook在这方面投入了大量资金，聘请了自然语言人工智能领域的一些顶尖人才。该公司喜欢表明的是，与一些大型科技公司不同，它通过将人工智能研究成果发布到网上，让整个研究社区都能看到，这可能会帮助其他正在构建下一代人工智能的公司。但这项研究肯定也会在自己的产品中体现。

消息应用与人们的日常生活深度捆绑，包括Messenger和WhatsApp，后者也是Facebook的子公司，目前仍在研究如何盈利。随着首席执行官扎克伯格为公司提出一个更加重视私人对话的新愿景，Messenger和WhatsApp将需要增加一些功能，以保持相对于微信、Telegram和苹果iMessage等其他信息平台的领先地位。

构建一种可以随意与人聊天的算法，已经成为大型科技公司的一个关键目标。亚马逊、谷歌和微软都加入了Facebook的行列，押注于人类对话的力量——不仅是基于文本的消息应用，还包括语音助手和其他体验。由于最近的研究进展，通往真正的对话式计算机的道路突然变得清晰起来，但首先到达目的地的奖品仍有待商榷。

换句话说，Facebook的自然语言研究远不止是复活M或者改进基于Messenger的聊天机器人，而是事关整个公司的未来。

神经网络

构建一个能与人进行逼真对话的数字代理人，可以说是所有自然语言问题中最难的。它需要一台机器来学习一本充满单词的字典，以及所有的用法和细微差别，然后在与一个无法预测的人的实时对话中使用它们。

直到最近几年，自然语言的AI社区才开始向通用知识机器人迈出更大的步伐。这部分是因为神经网络的巨大进步，这是一种机器学习算法，通过分析大量数据来识别模式。

在AI发展的大部分历史中，人类一直在观察软件在机器学习过程中的表现。在一种被称为监督学习的技术中，人类教师通过提供一个问题的正确答案来慢慢训练神经网络，然后调整算法使其达到相同的解决方案。

当有大量的数据都是经过精心标注的时候，监督学习就能很好地工作——比如，通过识别照片中有猫、狗或其他物品。但这种方法在聊天机器人的世界里往往行不通。数千小时的人与人之间的对话记录很难大量找到，而且对于一家公司来说，创建这些记录的成本很高。

由于很难教聊天机器人使用这些较老的方法进行对话，研究人员一直在寻找替代监督学习的方法，让神经网络在没有人参与的情况下自己从数据中学习。

减少对训练数据需求的一种方法是教机器基本常识。如果一台计算机对世界有一些了解，比如物体的相对大小、人们如何使用它们，以及一些物理定律如何影响它们的知识，那么它可能会将选择范围缩小。

人类这样做很自然。例如，假设你在一个陡峭的悬崖边开车，突然看到前面的路上有一块大石头，你要避免撞到石头。但在考虑你的选择时，你永远不会决定突然向悬崖边艰难地转弯。你知道，由于重力的作用，汽车会猛烈地落在下面的岩石上。

“我们所做的大部分学习是观察世界，”Facebook副总裁兼首席人工智能科学家Yann Lecun是人工智能领域的传奇人物，自上世纪80年代以来一直在应对最大的挑战，他表示：“我们从父母和其他人身上学到了很多东西，但我们也正是通过与世界互动，通过尝试、失败和改正，学到了很多东西。”

使用这种技术训练的人工智能，称为无监督学习，工作原理是一样的。例如，一辆自动驾驶汽车通过它的许多传感器和摄像头收集有关世界的数据，就像一个孩子通过她的五种感官了解世界一样。通过这种方法，科学家们为机器提供了大量的训练数据供其仔细研究。他们不会要求它给出正确的答案，也不会哄它朝着某个目标前进。相反，他们只要求IT部门处理数据并从中学习，找到模式，并映射不同数据点之间的关系。

在许多情况下，这些必要的数据很难获得。但是AI的一个领域是，神经网络可以在不需要传感器的情况下了解世界，即自然语言处理。研究人员可以使用大量现有的文本来帮助算法理解人类世界，这是理解语言的必要部分。

假设给一个神经网络两个短语来理解：

“奖杯放不进手提箱，因为它太大了。”

“奖杯放不进手提箱，因为它太小了。”

要知道“它”在每个句子中指的是不同的事物，模型需要知道一些关于世界上的对象及其相互关系的信息。LeCun表示：“文本中有足够的结构，它们正在接受训练，知道当你有一个对象适合另一个对象时，如果对象太大，其中一个就不适合。”

这项技术可能成为新一代更具对话性和实用性的Facebook聊天机器人的秘密。

BERT和RoBERTa

目前在自然语言系统的无监督训练方面的进展始于2018年的谷歌。它的研究人员创建了一个名为BERT（Bidirectional Encoder Representations from Transformers）的深度学习模型，并从11038本书中提取了未加注释的文本，以及维基百科英语词条中的25亿个单词。研究人员随机屏蔽了文本中的某些单词，并对该模型提出了挑战，让它找出如何填入这些单词。

在神经网络分析了整个训练文本后，它发现了经常出现在同一上下文中的单词和句子的模式，帮助它理解单词之间的基本关系。由于单词是物体或概念在现实世界中的表现形式，该模型学到的不仅仅是单词之间的语言关系：它开始理解物体之间的关系。

BERT并不是第一个使用无监督方法训练计算机理解人类语言的模型，但它是第一个在上下文中学习单词含义的模型。

“我想说它是自然语言处理领域的前两三大突破之一，”微软研究院深度学习小组的合作伙伴研究经理Jianfeng Gao表示。“你可以看到人们使用该模型作为构建所有其他自然语言处理模型的新基线。”到目前为止，BERT研究论文有超过1000条学术引用，其他研究人员也在谷歌的模型上进行了构建。

LeCun和他的团队就是其中之一。他们构建了自己版本的模型，然后进行了一些优化调整，大大扩展了训练数据量，并增加了允许的训练时间。在神经网络运行了数十亿次计算之后，Facebook的语言模型RoBERTa的表现要比谷歌的模型好得多。与BERT的80．5％相比，它的准确率达到了88．5％。

BERT和RoBERTa代表了一种全新的方法来教计算机如何交谈。“在这个过程中，系统必须表示它看到的单词的意思、句子的结构和上下文，”LeCun表示。“结果，它学会了语言的本质，这很奇怪，因为它对世界的物理现实一无所知。它没有视觉，没有听觉，什么都没有。”它只知道语言——字母、单词和句子。

慢慢接近真正的对话

LeCun表示，使用BERT和RoBERTa训练的自然语言模型，仍然没有足够的常识来开始生成基于广泛常识的聊天。这只是训练一个算法像人一样说话的开始。

Facebook的自然语言研究者也试图在RoBERTa的基础上建立更多的对话特征。他们首先研究了与聊天机器人的实际人类对话，以了解对话如何以及何时会中断或变得无聊。他们的发现推动了一项研究，可以通过训练，让机器人避免最常见的对话失败。

例如，聊天机器人经常自相矛盾，因为它们不记得自己在对话中说过什么。聊天机器人可能在前一分钟还声称喜欢重播的《霹雳游侠》，下一分钟又说不喜欢电视剧。聊天机器人会创建自己的原始响应（而不是从训练数据中检索示例），它们倾向于以模糊的方式回答问题，以避免出错。它们常常显得缺乏情绪，这使得它们缺乏吸引力。

聊天机器人还必须能够调用知识，成为有趣的健谈者。那些能够利用各种各样信息的人，更有可能与人类进行更长时间的对话。但是，目前的聊天机器人只接受一个领域的知识训练，这个领域与机器人的设计任务相对应——当人类开始对机器人领域之外的主题发表评论时，这就成了一个问题。例如，如果你问一个送披萨的机器人关于披萨以外的任何话题，对话就会迅速转移。

作为一种矫正方法，Facebook的研究人员一直致力于训练自然语言模型，从许多知识领域提取数据，并将这些信息以自然的方式输入到对话中。未来的研究将集中于教导机器人何时以及如何引导对话从一个一般性话题回到一个特定的任务。

开发聊天机器人面临的最大挑战之一是，让它们在调用后能够继续学习。单词的含义会随着时间的推移而变化，新的术语和俚语在文化上变得重要。与此同时，聊天机器人不能太容易受人影响——微软的Tay聊天机器人从在线对话中学到了太多、太快，在24小时内就变成了具有侮辱性的种族主义者。Facebook正在教授其实验性聊天机器人如何从顺畅的对话中学习，并分析人类聊天伙伴的语言，以发现机器人是否说了一些愚蠢或无聊的话。

预测Facebook在实验室中取得的进展可能会导致即时通讯聊天机器人的出现，这将是很危险的，因为这些聊天机器人能够进行对话，甚至具备某些类人类的肤浅技能。但也许不久我们就能自己判断结果了。Facebook研究员Jason Weston表示：“我们相信，我们已经非常接近拥有一个机器人，人们可以与机器人对话，从中看到价值。”